
본 프로젝트는 멀티모달 장문서 이해 맥락 내에서 큰 시각적 토큰 수, 중복 정보, 그리고 압축 전략의 효율성과 작업 요구 사항 간 균형을 맞추는 어려움이라는 과제를 해결합니다. 장문맥 시나리오에서 멀티모달 모델이 직면하는 계산 오버헤드를 고려하여, 시각적 토큰 압축 방법과 적응형 압축 전략을 체계적으로 조사합니다. 구체적으로, 전체 문서 및 작업 관련성 관점에서 시각적 토큰에 대한 효과적인 압축 및 필터링 메커니즘을 탐색합니다. 또한, 강화 학습 방법을 도입하여 다양한 문서 및 질문 시나리오에서 압축률에 대한 적응형 선택 전략을 탐색합니다. 이를 바탕으로 제안된 방법을 통합하고 검증하기 위해 멀티모달 장문서 질의응답 작업을 위한 애플리케이션 시스템을 구축합니다. 주요 연구 내용은 그림 1에 나와 있습니다. 그림을 생성해 주시겠습니까? 어떤 종류의 그림이 적합하며 어떻게 제시해야 할까요?

복사하여 바로 사용할 수 있는 간결한 SciDraw 프롬프트 (문서의 "Dual-Stream Attentio...