摘要

衡量进展是任何科学领域进步的基础。随着基准测试的作用日益凸显,它们也变得更加容易受到扭曲。聊天机器人Chatbot竞技场已成为排名最具能力的人工智能系统的首选排行榜。然而,在这项工作中,我们发现了导致比赛场地扭曲的系统性问题。我们发现,未公开的私人测试实践有利于少数能够在公开发布前测试多个变体的提供者,并且如果需要的话可以撤回分数。我们确定,这些提供者选择最佳分数的能力导致了由于选择性披露绩效结果而产生的竞技场分数偏差。在极端情况下,我们发现在Llama-4发布前的准备阶段,Meta测试了27种私有大型语言模型(LLM)变体。我们还发现,专有封闭模型以更高的频率(战斗次数)被采样,并且与开放权重和开源替代方案相比,从竞技场上移除的模型更少。这两种政策都导致随时间出现大量数据访问不对称。像谷歌和OpenAI这样的提供商分别获得了竞技场上所有数据的约19.2%和20.4%。相比之下,83个开放权重模型总共只获得了约29.7%的数据。我们展示了访问Chatbot竞技场数据可以带来实质性好处;根据我们的保守估计,即使有限额外数据也能使在竞技场分布上的相对性能提升高达112%。这些动态共同作用,导致模型过度拟合了竞技场特有的动态,而非一般模型质量。竞技场建立在组织者以及维护这一宝贵评估平台的开放社区的实质性努力之上。我们提供了可操作的建议,以改革Chatbot竞技场的评估框架,并促进该领域更公平、更透明的基准测试。

图1:关键见解概览。我们调查了未公开的私人测试和在Arena上的选择性成绩报告的情况,并强调了专有和开源提供商之间的显著数据获取差异。这些差异使得模型在Arena上过度拟合。此外,模型弃用实践缺乏透明度,许多模型在没有任何通知的情况下被静默弃用。我们展示了这些弃用如何导致排行榜上不可靠的排名。

https://arxiv.org/pdf/2504.20879

Chatbot Arena由LMSYS(一个研究组织,原名lmsys.org,现称lmarena.ai)创建,通过让用户匿名与两个模型对话并投票选出更好的那个,来对大模型进行排名。因其动态、用户驱动的评估方式,能捕捉到传统基准测试之外的真实用户偏好,迅速成为衡量顶级AI系统能力的事实标准,影响力巨大

图片

核心速览

研究背景

  1. 研究问题

    这篇文章要解决的问题是如何衡量和评估生成式AI模型的进展。特别是研究了Chatbot Arena排行榜在评估这些模型时的系统性和潜在偏见。

  2. 研究难点

    该问题的研究难点包括:私人测试和选择性披露导致的评分偏差、数据访问不对称性、模型弃用政策对排名可靠性的影响。

  3. 相关工作

    该问题的研究相关工作包括:早期的NLP基准测试(如TREC和WMT)、深度学习模型的ImageNet挑战、大型语言模型(如GLUE)的兴起,以及动态、用户驱动的评估框架(如Chatbot Arena)。

研究方法

这篇论文提出了通过系统分析Chatbot Arena的数据和策略来揭示其评估框架中的系统性问题。具体来说,

  1. 私人测试和选择性披露:首先,研究了Chatbot Arena允许少数优选提供者进行多次私人测试并只发布最佳版本的政策。这种策略违反了Bradley-Terry(BT)模型的无偏采样假设,导致评分系统偏差。

  2. 数据访问不对称性:其次,分析了不同提供者之间的数据访问差异,包括私人测试次数、采样率和模型弃用政策。发现OpenAI、Google、Meta和Anthropic占据了大部分数据,而开源和开放权重模型的数据访问量较少。

  3. 模型弃用对排名的影响:此外,研究了模型弃用政策对排名可靠性的影响。弃用政策可能导致比较图的稀疏或断开,从而破坏BT模型的可靠性。

实验设计

  1. 数据收集

    收集了2M场战斗和243个模型的数据,涵盖了42个提供者。数据来源包括Chatbot Arena的历史战斗数据、API提示、排行榜统计数据和随机抓取的战斗数据。

  2. 实验设置

    通过模拟实验和实际数据实验来验证私人测试和选择性披露对评分的影响。实验中使用了不同的训练混合比例(0%、30%、70%)来评估竞技场数据的训练效果。

  3. 样本选择

    选择了不同提供者的多个模型变体进行实验,特别关注Meta在Llama 4发布前进行的27个私人测试变体。

  4. 参数配置

    在模拟实验中,假设模型的真实技能参数服从正态分布,并通过多次模拟来估计不同私人测试次数对评分的影响。

结果与分析

  1. 私人测试和选择性披露的影响:模拟实验表明,提交多个模型变体并选择最佳版本会导致评分显著上升。实际数据实验也验证了这一发现,即使使用相同的模型变体,提交多个版本也能显著提高评分。

  2. 数据访问不对称性:分析显示,OpenAI、Google、Meta和Anthropic占据了62.8%的竞技场数据,而41个完全开源模型仅占8.8%。这种数据访问不对称性导致了显著的评分偏差。

  3. 模型弃用对排名的影响:模拟实验表明,模型弃用政策可能导致比较图的稀疏或断开,从而破坏BT模型的可靠性。实际数据分析显示,87.8%的开源模型和89%的开权模型被默默弃用,而80%的专有模型被弃用。

总体结论

这篇论文揭示了Chatbot Arena排行榜在评估生成式AI模型时存在的系统性问题,包括私人测试和选择性披露导致的评分偏差、数据访问不对称性和模型弃用政策对排名可靠性的影响。通过系统分析和实际数据实验,论文提出了一系列改进建议,以提高排行榜的公平性和透明度,促进更可靠的模型评估。

论文评价

优点与创新

  1. 系统性分析

    :论文通过系统性审计和模拟实验,揭示了Chatbot Arena中存在的一系列系统性问题,包括私人测试和选择性披露、数据访问不对称性、模型弃用等。

  2. 数据驱动的证据

    :利用超过2M场战斗和243个模型的数据,提供了有力的数据支持,展示了这些问题对排行榜的显著影响。

  3. 政策建议

    :提出了具体的、可操作的建议,旨在恢复Chatbot Arena的公平性和透明度,包括禁止提交后撤回分数、限制每个提供者的私人模型数量、确保模型移除的公平性、实施公平的采样策略等。

  4. 公开透明

    :建议提供全面的模型测试、弃用和采样率的信息,以便社区监督和信任排行榜。

  5. 创新性方法

    :引入了模拟实验和实际数据验证的方法,展示了私人测试和选择性披露对排行榜排名的具体影响。

不足与反思

  1. 数据局限性

    :由于缺乏原始和全面的数据,难以调查与对抗性投票相关的模式,这些投票可能会操纵排名或破坏系统。

  2. 时间范围有限

    :爬取的随机样本数据仅覆盖了2025年1月至3月的时间段,可能低估了在此期间进行更多模型发布的提供商的数量。

  3. 过拟合风险

    :训练实验可能低估了过拟合的风险,因为某些提供商可能使用比研究中使用的数据集大5到10倍的数据进行训练。

  4. 模型身份识别的近似性

    :依赖于模型的自我识别来分配私有模型,这种方法存在近似性,可能会导致一些误归因。

关键问题及回答

问题1:Chatbot Arena排行榜在处理私人测试和选择性披露方面存在哪些具体问题?

  1. 私人测试

    :Chatbot Arena允许少数优选提供者(如Meta、Google、OpenAI和Amazon)在公开发布前进行多次私人测试。例如,在Llama 4发布前,Meta进行了多达27个私人测试变体的测试。

  2. 选择性披露

    :这些提供者可以选择性地披露最佳表现版本,而其他版本则被隐藏。这种行为违反了Bradley-Terry(BT)模型的无偏采样假设,导致评分系统偏差。具体来说,提交多个模型变体并选择最佳版本会导致评分显著上升。

  3. 模拟实验

    :论文通过模拟实验验证了这一发现,结果表明,提交多个模型变体并选择最佳版本会导致评分显著上升。例如,模拟实验显示,测试10个变体可以使最大评分提高约100点。

问题2:数据访问不对称性在Chatbot Arena排行榜中是如何体现的?这种不对称性对评分有何影响?

  1. 数据访问不对称性

    :OpenAI、Google、Meta和Anthropic占据了大部分数据,而开源和开放权重模型的数据访问量较少。具体数据显示,这四家机构合计占据了62.8%的竞技场数据,而41个完全开源模型仅占8.8%。

  2. 对评分的影响

    :这种数据访问不对称性导致了显著的评分偏差。由于某些提供者拥有更多的数据,它们在排行榜上的表现往往更好。例如,Google和OpenAI分别获得了19.2%和20.4%的总测试提示数据,而41个完全开源模型总共只获得了8.8%的数据。

  3. 模拟实验

    :论文通过模拟实验进一步验证了这一点,结果表明,数据访问量的差异会导致评分的显著偏差。例如,在模拟实验中,增加竞技场数据的比例(从0%到70%)可以将评分从23.5%提高到49.9%。

问题3:模型弃用政策对Chatbot Arena排行榜的可靠性有何影响?论文中提出了哪些改进建议?

  1. 模型弃用政策的影响

    模型弃用政策可能导致比较图的稀疏或断开,从而破坏Bradley-Terry(BT)模型的可靠性。弃用政策可能导致某些模型在排行榜上被移除,而这些模型在未来可能无法与新模型进行比较,导致排名的不稳定性。

  2. 改进建议
  • 禁止评分撤回

    :所有提交的模型评估结果(包括私人变体)必须在提交后立即永久发布,不得撤回或选择性隐藏分数。

  • 限制私人变体数量

    :对每个提供者允许进行的私人变体数量设定严格的限制(如最多3个),并确保所有提供者都遵守这一限制。

  • 公平的模型弃用标准

    :制定透明且可审计的模型弃用标准,确保弃用过程对所有类型的模型(包括专有、开放权重和开源模型)都是公平的。

  • 改进采样策略

    :采用主动采样方法,优先选择评估不确定性高的模型对,以减少排名的不确定性。

  • 公开弃用模型信息

    :提供一个全面的弃用模型列表,并定期更新,以确保透明度和公平性。

 

 如何学习AI大模型?

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。


👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。


1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐