
チャート画像をTikZコードにリバースエンジニアリングするための自動パイプライン。このシステムのコアロジックは、以下の4つの主要な段階に分けられる: 1. グローバルプランニングと入力段階: - 入力:元のチャート画像(例:折れ線グラフ、棒グラフなど)。 - グローバル処理: - グローバルプランナー:画像入力を受け取り、グローバルメタデータを抽出。 - 出力:チャートのグローバルパラメータ(例:'X-scale': 1.5, 'Y-scale': 0.5などのスケール情報)を含むJSON形式のデータを生成。 - 出力例(JSON): ```json { 'x_scale': '1.3cm', 'y_scale': '0.5cm', 'y_min': 0, 'y_max': 10, 'x_min': 0, 'x_max': 6, 'colors': {'mplBlue': '31,119,180', 'gridGray': '220,220,220'}, 'chart_type': 'bar_chart' } ``` 2. 並列特徴抽出段階: - 画像とグローバルメタデータは、4つの並列な深層学習/認識モデルに同時に入力され、それぞれが異なるチャートコンポーネント情報の抽出と、対応するTikZコードスニペットの生成を担当する: 1. チャート基本構成認識モデル:チャートの基本構造を識別し、TikZコード1を生成。 2. 座標軸解析モデル:X/Y軸のスケール、ラベルなどを解析し、TikZコード2を生成。 3. データ可視化認識モデル:特定のデータ点、線、または棒を識別し、TikZコード3を生成。 4. 凡例認識モデル:凡例の内容とスタイルを識別し、TikZコード4を生成。 3. コード合成段階: - 埋め込み:上記の2つの段階で生成されたデータを統合。 - グローバルプランナーによって生成されたJSONデータ。 - 4つのモデルによって生成されたTikZコードスニペット(1-4)。 - テンプレート適用:このデータは、あらかじめ設定されたLaTeXテンプレートに埋め込まれる。 - 出力:完全なTikZコードを生成。 4. コンパイルと検証ループ: - これは、コードの実行可能性を保証するための、システムにおける重要なクローズドループである。 - Latex

このプロジェクトは、マルチモーダル長文ドキュメント理解における、大規模なビジュアルトークン数、冗長な情報、効率とタスク要...