
Этот проект посвящен решению проблем, связанных с большим количеством визуальных токенов, избыточной информацией и сложностью балансировки эффективности и требований задач в стратегиях сжатия в контексте понимания многомодальных длинных документов. Учитывая вычислительные затраты, с которыми сталкиваются многомодальные модели в сценариях с длинным контекстом, мы систематически исследуем методы сжатия визуальных токенов и адаптивные стратегии сжатия. В частности, мы изучаем эффективные механизмы сжатия и фильтрации визуальных токенов с точки зрения общей релевантности документа и задачи. Кроме того, мы представляем методы обучения с подкреплением для изучения адаптивных стратегий выбора коэффициентов сжатия в различных сценариях документов и вопросов. На основе этого мы создаем прикладную систему для задач многомодального вопросно-ответного поиска по длинным документам для интеграции и проверки предложенных методов. Основное содержание исследования показано на рисунке 1. Можете ли вы сгенерировать рисунок для меня? Какой тип рисунка был бы подходящим и как его следует представить?
Пожалуйста, нарисуйте вертикальную, многоступенчатую блок-сх...