
此图展示了一个将图表图像逆向工程为 TikZ 代码的自动化流程。该系统的核心逻辑可以分为以下四个主要阶段:1. 输入与全局规划阶段:输入:原始图表图像(例如折线图、柱状图等)。全局处理:全局规划器:接收图像输入并提取全局元数据。输出:生成包含图表全局参数的 JSON 格式数据(例如,“X 轴比例”:1.5,“Y 轴比例”:0.5 等)。2. 并行特征提取阶段:图像同时输入到四个并行的深度学习/识别模型中,每个模型负责提取不同的图表组件信息并生成相应的 TikZ 代码片段:图表基本配置识别模型:识别图表的基本结构并生成 Tikz 1 代码。坐标轴解析模型:解析 X/Y 轴的刻度、标签等并生成 Tikz 2 代码。数据可视化识别模型:识别特定的数据点、线条或柱状图并生成 Tikz 3 代码。图例识别模型:识别图例的内容和样式并生成 Tikz 4 代码。3. 代码合成阶段:填充:整合以上两个阶段产生的数据:全局规划器产生的 JSON 数据。四个模型产生的 TikZ 代码片段(1-4)。模板应用:将这些数据填充到预设的 LaTeX 模板中。输出:生成完整的 TikZ 代码。4. 编译与验证循环:这是系统中确保代码可执行性的关键闭环:Latex 编译器:尝试编译生成的完整代码。成功:直接输出最终图表,流程结束。失败:触发错误处理机制。检查代理:接收编译失败信息。分析错误并尝试修复代码。生成新的 TikZ 代码。循环:将新代码发送回 Latex 编译器进行编译,直到成功。

本项目旨在解决多模态长文档理解中,视觉Token数量庞大、信息冗余以及压缩策略在效率和任务需求之间难以平衡等挑战。考虑到...