
このプロジェクトは、マルチモーダル長文ドキュメント理解における、大規模なビジュアルトークン数、冗長な情報、効率とタスク要件のバランスを取ることの難しさといった圧縮戦略の課題に対処します。長文コンテキストにおいてマルチモーダルモデルが直面する計算コストを考慮し、ビジュアルトークン圧縮手法と適応的圧縮戦略を体系的に調査します。具体的には、ドキュメント全体とタスク関連性の観点から、ビジュアルトークンの効果的な圧縮およびフィルタリングメカニズムを検討します。さらに、異なるドキュメントおよび質問シナリオにおける圧縮率の適応的な選択戦略を探索するために、強化学習手法を導入します。これに基づき、提案手法を統合・検証するためのマルチモーダル長文ドキュメント質問応答タスクのアプリケーションシステムを構築します。主な研究内容は図1に示されています。図を生成してもらえますか?どのような図が適切で、どのように表現すべきでしょうか?
特徴選択アルゴリズムの段階的な垂直フローチャートを、学術論文の図版スタイル(淡い色、明確な線)で描いてください。プロセス...