
Ce projet aborde les défis posés par les grands nombres de Tokens visuels, les informations redondantes et la difficulté d'équilibrer l'efficacité et les exigences des tâches dans les stratégies de compression, dans le contexte de la compréhension multimodale de longs documents. Compte tenu de la surcharge de calcul rencontrée par les modèles multimodaux dans les scénarios de contexte long, nous étudions systématiquement les méthodes de compression de Tokens visuels et les stratégies de compression adaptatives. Plus précisément, nous explorons des mécanismes efficaces de compression et de filtrage des Tokens visuels du point de vue de la pertinence globale du document et de la tâche. De plus, nous introduisons des méthodes d'apprentissage par renforcement pour explorer des stratégies de sélection adaptatives pour les taux de compression dans différents scénarios de document et de question. Sur cette base, nous construisons un système d'application pour les tâches de question-réponse sur de longs documents multimodaux afin d'intégrer et de valider les méthodes proposées. Le contenu principal de la recherche est illustré à la Figure 1. Pourriez-vous générer une figure pour moi ? Quel type de figure serait approprié et comment devrait-elle être présentée ?
Veuillez dessiner un organigramme vertical et étagé d'un alg...