
Dieses Projekt befasst sich mit den Herausforderungen großer visueller Token-Anzahlen, redundanter Informationen und der Schwierigkeit, Effizienz und Aufgabenanforderungen in Kompressionsstrategien im Kontext des multimodalen Verständnisses langer Dokumente auszubalancieren. Angesichts des Rechenaufwands, mit dem multimodale Modelle in Langkontext-Szenarien konfrontiert sind, untersuchen wir systematisch visuelle Token-Kompressionsmethoden und adaptive Kompressionsstrategien. Insbesondere untersuchen wir effektive Kompressions- und Filtermechanismen für visuelle Token unter dem Gesichtspunkt der Gesamt-Dokument- und Aufgabenrelevanz. Darüber hinaus führen wir Reinforcement-Learning-Methoden ein, um adaptive Auswahlstrategien für Kompressionsraten in verschiedenen Dokument- und Frageszenarien zu untersuchen. Darauf aufbauend konstruieren wir ein Anwendungssystem für multimodale lange Dokumenten-Frage-Antwort-Aufgaben, um die vorgeschlagenen Methoden zu integrieren und zu validieren. Der wesentliche Forschungsinhalt ist in Abbildung 1 dargestellt. Könnten Sie mir eine Abbildung erstellen? Welche Art von Abbildung wäre geeignet und wie sollte sie dargestellt werden?
Bitte zeichne ein vertikales, gestuftes Flussdiagramm eines ...