大模型-评测面

目前用来衡量一个模型好不好的方法，基本都是基于一些学术 benchmark，比如在某一个 NLP 任务上构建一个测试数据集，然后看测试数据集上的准确率。当前 SuperGLUE、GLUE，包括中文的 CLUE 的 benchmark 都不太适合评估大模型。理论上我们可以和聊天机器人聊任何事情，但很多话题或任务在现存的 benchmark 中根本不存在。，甚至更进一步，用测试集直接对模型进行“特训”

代码骑士

137人浏览 · 2025-09-18 13:18:27

代码骑士 · 2025-09-18 13:18:27 发布

1. 大模型怎么评测？

当前 SuperGLUE、GLUE，包括中文的 CLUE 的 benchmark 都不太适合评估大模型。可能评估推理能力、多轮对话能力是核心。

2. 大模型的 honest 原则是如何实现的？

模型如何判断回答的知识是训练过的已知知识？怎么训练这种能力？
大模型需要遵循 helpful（有用）、honest（诚实）、harmless（无害） 的原则。
可以有意构造如下训练样本，以提升模型遵守 honest 原则（可以算 trick）：

微调时构造知识问答类训练集，不知道的不回答，加强 honest 原则；
阅读理解题，读过的要回答，没读过的不回答，不要胡说八道。

3. 如何衡量大模型水平？

评估大型语言模型水平，可从以下几个维度提出具有代表性的问题：

理解能力：提出需要深入理解文本的问题，看模型是否能准确回答。
语言生成能力：让模型生成特定主题的文章或故事，评估结构、逻辑和语法质量。
知识面广度：请模型回答不同领域（科学、历史、文学等）的问题，测试其知识掌握程度。
适应性：让模型处理写作、翻译、编程等不同任务，看其灵活性。
长文本理解：提供长文本，让模型总结要点或创作完整故事，评估逻辑一致性和结构完整性。
长文本生成：请模型创作有完整情节的故事或文章，避免逻辑矛盾，保持连贯性。
多样性：提出一个问题，让模型给出多个不同答案，测试创造力。
情感分析和推断：提供对话或文本，让模型分析情感、态度或角色关系。
情感表达：生成带有情感色彩的文本，如场景描述、人物情绪等。
逻辑推理能力：提出需要推理的问题，如概率或逻辑题，测试模型推理准确性。
问题解决能力：提出数学、编程等实际问题，看模型是否能正确解答。
道德和伦理：测试模型在处理道德伦理问题时的表现，如“在什么情况下撒谎是可以接受的？”
对话和聊天：测试模型对自然语言的理解和回应能力。

4. 大模型评估方法有哪些？

人工评估：如 LIMA、Phoenix 等。

使用 GPT-4 的反馈进行自动评估：
Vicuna、Phoenix、Chimera、BELLE
指标评估（BLEU-4、ROUGE 分数）： ChatGLM-6B
对于像 ROUGE-L 分数的指标评估，有些地方称其为非自然指令评估（Unnatural Instruction Evaluation）。

ChatbotArena：
目前用来衡量一个模型好不好的方法，基本都是基于一些学术 benchmark，比如在某一个 NLP 任务上构建一个测试数据集，然后看测试数据集上的准确率。然而，这些学术 benchmark（如 HELM）在大模型和聊天机器人上就不好用了，原因如下：
评判聊天机器人聊得好不好这件事是非常主观的，现有方法很难对其进行衡量；
这些大模型在训练时几乎把整个互联网的数据都扫了一遍，因此很难保证测试用的数据集没有被看到过，甚至更进一步，用测试集直接对模型进行“特训”，如此一来表现必然更好；
理论上我们可以和聊天机器人聊任何事情，但很多话题或任务在现存的 benchmark 中根本不存在。

因此，ChatbotArena 的做法是放弃 benchmark，通过对抗、实时聊天、两两比对、人工打分，采用 Elo 分数 进行评测。

5. 大模型评估工具有哪些？

OpenAI Evals：OpenAI 的自动化评估脚本，核心思路是通过写 prompt 模板来自动化评估；
PandaLM：直接训练了一个自动化打分模型，采用 0/1/2 三分制，用模型对两个候选模型进行打分。

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

Chess用户界面设计：Tailwind CSS样式系统和组件库

GitHub推荐项目精选中的ch/chess是一个类似chess.com的多人在线象棋平台，它采用现代化的前端技术栈构建，尤其在用户界面设计上通过Tailwind CSS样式系统和组件库实现了优雅且功能丰富的交互体验。本文将深入探讨该项目如何利用Tailwind CSS打造一致的设计语言和高效的组件系统，为象棋爱好者提供沉浸式的游戏界面。## 🎨 Tailwind CSS样式系统：构建统一视

火山引擎 ADG 社区

终极指南：GPT-Engineer如何通过AI自动发现代码问题并提升质量

GPT-Engineer是一款强大的AI驱动代码工具，它能帮助开发者自动检测潜在代码问题、优化代码质量，让编程效率提升3倍以上。无论是新手还是资深开发者，都能通过这款工具轻松发现代码中的隐藏缺陷，减少调试时间，释放更多精力在创造性工作上。## 一键发现代码问题：GPT-Engineer的AI审查魔力GPT-Engineer的核心能力在于其内置的智能代码分析系统。通过集成Python代码格式

火山引擎 ADG 社区

SatDump中的纠错编码技术：从RS码到Turbo码的完整实现指南

在卫星数据传输过程中，信号往往会受到各种干扰，导致数据错误。SatDump作为一款通用卫星数据处理软件，集成了多种先进的纠错编码技术，确保从卫星接收到的数据能够准确解码。本文将深入解析SatDump中从Reed-Solomon（RS）码到Turbo码的实现细节，帮助读者理解这些技术如何保障卫星通信的可靠性。## 为什么纠错编码对卫星数据至关重要？卫星与地面站之间的通信链路面临着空间辐射、大