提示詞描述
此專案旨在解決多模態長文檔理解中,大型視覺Token計數、冗餘資訊以及壓縮策略在效率與任務需求之間難以平衡等挑戰。 考量到多模態模型在長上下文場景中面臨的計算負擔,我們系統性地研究了視覺Token壓縮方法和自適應壓縮策略。 具體而言,我們從整體文檔和任務相關性的角度,探索了有效的視覺Token壓縮和過濾機制。 此外,我們引入了強化學習方法,以探索不同文檔和問題場景下壓縮率的自適應選擇策略。 基於此,我們構建了一個多模態長文檔問答任務的應用系統,以整合和驗證所提出的方法。 主要研究內容如圖1所示。 您能為我生成一張圖嗎? 什麼樣的圖表適合,又該如何呈現?