
将图表图像逆向工程为 TikZ 代码的自动化流程。该系统的核心逻辑可以分为以下四个主要阶段: 1. 全局规划和输入阶段: - 输入:原始图表图像(例如,折线图、条形图等)。 - 全局处理: - 全局规划器:接收图像输入并提取全局元数据。 - 输出:生成包含图表全局参数的 JSON 格式数据(例如,“X 比例”:1.5,“Y 比例”:0.5 比例信息)。 - 输出示例 (JSON): ```json { 'x_scale': '1.3cm', 'y_scale': '0.5cm', 'y_min': 0, 'y_max': 10, 'x_min': 0, 'x_max': 6, 'colors': {'mplBlue': '31,119,180', 'gridGray': '220,220,220'}, 'chart_type': 'bar_chart' } ``` 2. 并行特征提取阶段: - 图像和全局元数据同时输入到四个并行的深度学习/识别模型中,每个模型负责提取不同的图表组件信息并生成相应的 TikZ 代码片段: 1. 图表基本配置识别模型:识别图表的基本结构并生成 TikZ 代码 1。 2. 坐标轴解析模型:解析 X/Y 轴的刻度、标签等并生成 TikZ 代码 2。 3. 数据可视化识别模型:识别特定的数据点、线条或条形并生成 TikZ 代码 3。 4. 图例识别模型:识别图例的内容和样式并生成 TikZ 代码 4。 3. 代码合成阶段: - 填充:整合以上两个阶段产生的数据。 - 全局规划器产生的 JSON 数据。 - 四个模型产生的 TikZ 代码片段 (1-4)。 - 模板应用:将这些数据填充到预设的 LaTeX 模板中。 - 输出:生成完整的 TikZ 代码。 4. 编译 & 验证循环: - 这是系统中确保代码可执行性的关键闭环。 - Latex
本项目旨在解决多模态长文档理解中,视觉Token数量庞大、信息冗余以及压缩策略在效率和任务需求之间难以平衡等挑战。考虑到...