ChartArena：跨语言、场景与格式的图表解析基准测试

DM今天肝到几点？

96人浏览 · 2026-06-25 09:55:09

DM今天肝到几点？ · 2026-06-25 09:55:09 发布

来源：HuggingFace Daily Papers（社区热门论文）

原文：https://arxiv.org/abs/2606.01348

英文题目：ChartArena： Benchmarking Chart Parsing across Languages， Scenarios， and Formats

ChartArena 是一个旨在系统评估图表解析模型的双语基准测试。它覆盖了八种图表家族（包括数字图表与流程图等结构），并针对数字渲染、打印照片和手绘照片三种场景进行评估。数据集采用人机协作标注流程，并设计了格式无关的评估协议，将不同模型输出映射到标准化语义空间进行评分。对26个多模态大语言模型的评估显示，前沿闭源模型如Gemini 3.1 Pro领先，开源系统正快速追赶；文档解析模型在数字图表上表现尚可，但在图表结构上明显不足；专业解析器仍局限于特定图表类型。雷达图和手绘场景对所有模型都尤其具有挑战性。

论文速读

这篇论文先处理的，是一个很具体的工程问题：ChartArena 是一个旨在系统评估图表解析模型的双语基准测试。
它不是单纯往 benchmark 上追分，而是在把一个系统里的薄弱环节拆开。
如果把全文压成一条线，就是：先定义问题，再给方法，最后看系统后果。

这篇论文到底在说什么

ChartArena 是一个旨在系统评估图表解析模型的双语基准测试。它覆盖了八种图表家族（包括数字图表与流程图等结构），并针对数字渲染、打印照片和手绘照片三种场景进行评估。数据集采用人机协作标注流程，并设计了格式无关的评估协议，将不同模型输出映射到标准化语义空间进行评分。对26个多模态大语言模型的评估显示，前沿闭源模型如Gemini 3.1 Pro领先，开源系统正快速追赶；文档解析模型在数字图表上表现尚可，但在图表结构上明显不足；专业解析器仍局限于特定图表类型。雷达图和手绘场景对所有模型都尤其具有挑战性。

它覆盖了八种图表家族（包括数字图表与流程图等结构），并针对数字渲染、打印照片和手绘照片三种场景进行评估。这个判断很重要，因为它说明作者并不是在“换个说法讲老问题”，而是在改问题边界。

技术启示

这类工作最值得关注的地方，不是分数本身，而是它在提醒我们：真正能进生产的方案，通常都得过三关，能解释、能复现、能落地。如果一个方法只在离线评测里好看，但说不清代价和约束，那它通常还没走到系统层。

行业启示

如果你在做开发、产品或者企业 AI 项目，这类工作更重要的是帮你判断：该继续堆模型，还是该去改数据、训练、检索、评估和服务链路。很多时候，真正的增益不来自“再大一点”，而是来自把任务、数据和执行链路重新拆一遍。

结尾

这篇文章更适合当成一个信号看：方向对了，后面的工程化空间才会真正打开。

如果你觉得多模型切换 Q、工具订阅的流程太繁琐,也可以试试我们的「胜算云」平台,一站式搞定AI创作与开发相关需求。官网:https://www.shengsuanyun.com/?from=CH_5VQOF8WB

智能体开发者社区

中国智能体开发者社区，聚焦智能体与大模型开发，提供前沿资讯、实用工具链、开源项目及行业案例。通过技术沙龙、开发者大赛等活动，促进经验交流与协作，助力开发者快速构建创新智能应用。

更多推荐

cover

国产大模型连续八周调用量领跑全球，多模型统一API接入实践方案

智能体开发者社区

cover

从工具到伙伴：AI Agent 核心架构深度剖析

智能体开发者社区

cover

ChatGPT Plus 和 Pro 怎么选？普通用户别再乱花钱了

智能体开发者社区

所有评论(0)

查看更多评论

DM今天肝到几点？

@weixin_49470217

已为社区贡献16条内容