
此圖示範將圖表圖像逆向工程為 TikZ 程式碼的自動化流程。此系統的核心邏輯可分為以下四個主要階段:1. 輸入與全局規劃階段:輸入:原始圖表圖像(例如折線圖、長條圖等)。全局處理:全局規劃器:接收圖像輸入並提取全局元數據。輸出:生成包含圖表全局參數的 JSON 格式數據(例如,“X 軸比例”:1.5,“Y 軸比例”:0.5 等)。2. 並行特徵提取階段:圖像同時輸入到四個並行的深度學習/識別模型中,每個模型負責提取不同的圖表組件信息並生成相應的 TikZ 程式碼片段:圖表基本配置識別模型:識別圖表的基本結構並生成 Tikz 1 程式碼。軸線解析模型:解析 X/Y 軸的比例、標籤等,並生成 Tikz 2 程式碼。數據可視化識別模型:識別特定的數據點、線條或長條,並生成 Tikz 3 程式碼。圖例識別模型:識別圖例的內容和樣式並生成 Tikz 4 程式碼。3. 程式碼合成階段:填入:整合以上兩個階段產生的數據:全局規劃器產生的 JSON 數據。四個模型產生的 TikZ 程式碼片段 (1-4)。模板應用:將這些數據填入預設的 LaTeX 模板中。輸出:生成完整的 TikZ 程式碼。4. 編譯與驗證迴圈:這是系統中確保程式碼可執行性的關鍵閉環:Latex 編譯器:嘗試編譯生成的完整程式碼。成功:直接輸出最終圖表,流程結束。失敗:觸發錯誤處理機制。檢查代理:接收編譯失敗信息。分析錯誤並嘗試修復程式碼。生成新的 TikZ 程式碼。迴圈:將新程式碼發送回 Latex 編譯器進行編譯,直到成功。

此專案旨在解決多模態長文檔理解中,大型視覺Token計數、冗餘資訊以及壓縮策略在效率與任務需求之間難以平衡等挑戰。 考量...