
Questo progetto affronta le sfide legate all'elevato numero di Token visivi, alle informazioni ridondanti e alla difficoltà di bilanciare efficienza e requisiti delle attività nelle strategie di compressione, nel contesto della comprensione multimodale di documenti lunghi. Considerando il sovraccarico computazionale affrontato dai modelli multimodali in scenari di contesto lungo, indaghiamo sistematicamente i metodi di compressione dei Token visivi e le strategie di compressione adattiva. In particolare, esploriamo meccanismi efficaci di compressione e filtraggio per i Token visivi, dal punto di vista della rilevanza complessiva del documento e del compito. Inoltre, introduciamo metodi di apprendimento per rinforzo per esplorare strategie di selezione adattiva per i tassi di compressione in diversi scenari di documenti e domande. Sulla base di ciò, costruiamo un sistema applicativo per compiti di question answering su documenti lunghi multimodali per integrare e convalidare i metodi proposti. Il principale contenuto della ricerca è mostrato in Figura 1. Potresti generare una figura per me? Che tipo di figura sarebbe adatta e come dovrebbe essere presentata?
Si prega di disegnare un diagramma di flusso verticale a sta...