
Este projeto aborda os desafios de grandes contagens de Tokens visuais, informações redundantes e a dificuldade de equilibrar eficiência e requisitos de tarefa em estratégias de compressão no contexto da compreensão multimodal de documentos longos. Considerando a sobrecarga computacional enfrentada por modelos multimodais em cenários de contexto longo, investigamos sistematicamente métodos de compressão de Tokens visuais e estratégias de compressão adaptativas. Especificamente, exploramos mecanismos eficazes de compressão e filtragem para Tokens visuais a partir das perspectivas da relevância geral do documento e da tarefa. Além disso, introduzimos métodos de aprendizado por reforço para explorar estratégias de seleção adaptativas para taxas de compressão em diferentes cenários de documento e pergunta. Com base nisso, construímos um sistema de aplicação para tarefas de perguntas e respostas sobre documentos longos multimodais para integrar e validar os métodos propostos. O principal conteúdo da pesquisa é mostrado na Figura 1. Você poderia gerar uma figura para mim? Que tipo de figura seria adequado e como deveria ser apresentada?
Desenhe um fluxograma vertical e em etapas de um algoritmo d...