
Este proyecto aborda los desafíos de los grandes conteos de Tokens visuales, la información redundante y la dificultad de equilibrar la eficiencia y los requisitos de la tarea en las estrategias de compresión dentro del contexto de la comprensión multimodal de documentos largos. Considerando la sobrecarga computacional que enfrentan los modelos multimodales en escenarios de contexto largo, investigamos sistemáticamente los métodos de compresión de Tokens visuales y las estrategias de compresión adaptativa. Específicamente, exploramos mecanismos efectivos de compresión y filtrado para Tokens visuales desde las perspectivas de la relevancia general del documento y de la tarea. Además, introducimos métodos de aprendizaje por refuerzo para explorar estrategias de selección adaptativa para las tasas de compresión en diferentes escenarios de documentos y preguntas. Basándonos en esto, construimos un sistema de aplicación para tareas de preguntas y respuestas de documentos largos multimodales para integrar y validar los métodos propuestos. El contenido principal de la investigación se muestra en la Figura 1. ¿Podrías generar una figura para mí? ¿Qué tipo de figura sería adecuada y cómo debería presentarse?
Por favor, dibuje un diagrama de flujo vertical y escalonado...