ChartArena:跨语言、场景与格式的图表解析基准测试
来源:HuggingFace Daily Papers(社区热门论文)
原文:https://arxiv.org/abs/2606.01348
英文题目:ChartArena: Benchmarking Chart Parsing across Languages, Scenarios, and Formats
ChartArena 是一个旨在系统评估图表解析模型的双语基准测试。它覆盖了八种图表家族(包括数字图表与流程图等结构),并针对数字渲染、打印照片和手绘照片三种场景进行评估。数据集采用人机协作标注流程,并设计了格式无关的评估协议,将不同模型输出映射到标准化语义空间进行评分。对26个多模态大语言模型的评估显示,前沿闭源模型如Gemini 3.1 Pro领先,开源系统正快速追赶;文档解析模型在数字图表上表现尚可,但在图表结构上明显不足;专业解析器仍局限于特定图表类型。雷达图和手绘场景对所有模型都尤其具有挑战性。

论文速读
-
这篇论文先处理的,是一个很具体的工程问题:ChartArena 是一个旨在系统评估图表解析模型的双语基准测试。
-
它不是单纯往 benchmark 上追分,而是在把一个系统里的薄弱环节拆开。
-
如果把全文压成一条线,就是:先定义问题,再给方法,最后看系统后果。
这篇论文到底在说什么
ChartArena 是一个旨在系统评估图表解析模型的双语基准测试。它覆盖了八种图表家族(包括数字图表与流程图等结构),并针对数字渲染、打印照片和手绘照片三种场景进行评估。数据集采用人机协作标注流程,并设计了格式无关的评估协议,将不同模型输出映射到标准化语义空间进行评分。对26个多模态大语言模型的评估显示,前沿闭源模型如Gemini 3.1 Pro领先,开源系统正快速追赶;文档解析模型在数字图表上表现尚可,但在图表结构上明显不足;专业解析器仍局限于特定图表类型。雷达图和手绘场景对所有模型都尤其具有挑战性。
它覆盖了八种图表家族(包括数字图表与流程图等结构),并针对数字渲染、打印照片和手绘照片三种场景进行评估。这个判断很重要,因为它说明作者并不是在“换个说法讲老问题”,而是在改问题边界。
技术启示
这类工作最值得关注的地方,不是分数本身,而是它在提醒我们: 真正能进生产的方案,通常都得过三关,能解释、能复现、能落地。 如果一个方法只在离线评测里好看,但说不清代价和约束,那它通常还没走到系统层。
行业启示
如果你在做开发、产品或者企业 AI 项目,这类工作更重要的是帮你判断: 该继续堆模型,还是该去改数据、训练、检索、评估和服务链路。 很多时候,真正的增益不来自“再大一点”,而是来自把任务、数据和执行链路重新拆一遍。
结尾
这篇文章更适合当成一个信号看:方向对了,后面的工程化空间才会真正打开。
如果你觉得多模型 切换 Q、工具订阅的流程太繁琐,也可以试试我们的「胜算云」平台,一站式搞定AI创作与开发相关需求。官网:https://www.shengsuanyun.com/?from=CH_5VQOF8WB
更多推荐



所有评论(0)