LMSys、OpenCompass和OpenLLM Leaderboard都是用于评测大语言模型的工具或平台,以下是它们的对比:

  • 评测方法
    • LMSys:采用众包的方式对大模型进行匿名评测,用户在官网输入问题,由一个或多个匿名大模型返回结果,用户根据期望对效果投票,形成众包评测结果。其评测指标包括Arena Elo得分(类似围棋排名,模型在用户投票中赢得越多分数越高)和MT - Bench得分(通过收集全球用户问题形成多轮数据集,让模型生成回复,再由GPT - 4等强大模型进行评估)。
    • OpenCompass:涵盖学科、语言、知识、理解、推理等五大评测维度,可全面评估大模型能力。它提供丰富的工具链(CompassKit)和基准测试资源导航平台(CompassHub),支持社区贡献和共享评测基准,基于多种基准测试来评估模型在不同维度上的表现。
    • OpenLLM Leaderboard:基于多个基准测试来评估模型,如MMLU - Pro(大规模多任务语言理解 - 专业版)、GPQA(研究生级别的谷歌问答基准)、MuSR(多步软推理)、MATH(数学启发式测试,5级子集)、IFEval(指令遵循评估)、BBH(大基准测试难题)等,通过这些基准测试对模型的知识、推理、指令遵循等能力进行评估。
  • 数据特点
    • LMSys:利用私人测试集,减少与流行训练数据集的重叠,确保数据完整性,降低数据污染风险,能更真实地反映模型在实际应用中的性能。
    • OpenCompass:支持多种模型和100多个数据集,数据来源广泛,涵盖了不同类型和领域的数据集,可从多个角度评估模型的性能。
    • OpenLLM Leaderboard:使用的数据集经过精心设计和筛选,如MMLU - Pro是MMLU数据集的改进版本,经过专家审查以减少噪音并提高难度;GPQA由领域专家设计问题,难度极高;MuSR由算法生成复杂问题等,这些数据集能有效测试模型在不同方面的能力。
  • 模型覆盖范围
    • LMSys:不仅涵盖开源模型,还包括闭源模型,可对各种类型的大型语言模型进行评估,为用户提供了更全面的模型比较视角。
    • OpenCompass:支持多种常见的大模型,如Intern LM 2、GPT - 4、Llama 2、Qwen、GLM、Claude等,覆盖了国内外的一些主流模型,有助于用户对不同模型在相同评测体系下进行对比。
    • OpenLLM Leaderboard:主要针对开源模型进行评测,在开源模型领域具有广泛的覆盖范围,能帮助用户了解开源模型的性能表现和发展趋势。
  • 应用场景
    • LMSys:由于采用众包投票和专业模型评估相结合的方式,其结果能较好地反映模型在实际用户体验和专业评估下的综合表现,适用于开发者想了解模型在大众使用场景中的表现,以及用户想直观感受不同模型对各种问题的解答能力,以便选择最适合自己需求的模型。
    • OpenCompass:提供了全面的评测维度和丰富的工具链,适用于研究人员和开发者深入研究模型在不同能力维度上的表现,以及进行模型优化和改进时参考,也有助于用户根据具体的业务需求,选择在特定维度上表现出色的模型。
    • OpenLLM Leaderboard:基于多种专业的基准测试数据集,能准确评估模型在知识、推理、指令遵循等方面的能力,适用于研究人员关注模型在特定学术和专业领域的性能,以及开发者希望了解模型在标准测试集上的表现,以与其他模型进行对比和参考。
Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐