大模型-评测面
目前用来衡量一个模型好不好的方法,基本都是基于一些学术 benchmark,比如在某一个 NLP 任务上构建一个测试数据集,然后看测试数据集上的准确率。当前 SuperGLUE、GLUE,包括中文的 CLUE 的 benchmark 都不太适合评估大模型。理论上我们可以和聊天机器人聊任何事情,但很多话题或任务在现存的 benchmark 中根本不存在。,甚至更进一步,用测试集直接对模型进行“特训”
1. 大模型怎么评测?
当前 SuperGLUE、GLUE,包括中文的 CLUE 的 benchmark 都不太适合评估大模型。可能评估推理能力、多轮对话能力是核心。
2. 大模型的 honest 原则是如何实现的?
模型如何判断回答的知识是训练过的已知知识?怎么训练这种能力?
大模型需要遵循 helpful(有用)、honest(诚实)、harmless(无害) 的原则。
可以有意构造如下训练样本,以提升模型遵守 honest 原则(可以算 trick):
- 微调时构造知识问答类训练集,不知道的不回答,加强 honest 原则;
- 阅读理解题,读过的要回答,没读过的不回答,不要胡说八道。
3. 如何衡量大模型水平?
评估大型语言模型水平,可从以下几个维度提出具有代表性的问题:
- 理解能力:提出需要深入理解文本的问题,看模型是否能准确回答。
- 语言生成能力:让模型生成特定主题的文章或故事,评估结构、逻辑和语法质量。
- 知识面广度:请模型回答不同领域(科学、历史、文学等)的问题,测试其知识掌握程度。
- 适应性:让模型处理写作、翻译、编程等不同任务,看其灵活性。
- 长文本理解:提供长文本,让模型总结要点或创作完整故事,评估逻辑一致性和结构完整性。
- 长文本生成:请模型创作有完整情节的故事或文章,避免逻辑矛盾,保持连贯性。
- 多样性:提出一个问题,让模型给出多个不同答案,测试创造力。
- 情感分析和推断:提供对话或文本,让模型分析情感、态度或角色关系。
- 情感表达:生成带有情感色彩的文本,如场景描述、人物情绪等。
- 逻辑推理能力:提出需要推理的问题,如概率或逻辑题,测试模型推理准确性。
- 问题解决能力:提出数学、编程等实际问题,看模型是否能正确解答。
- 道德和伦理:测试模型在处理道德伦理问题时的表现,如“在什么情况下撒谎是可以接受的?”
- 对话和聊天:测试模型对自然语言的理解和回应能力。
4. 大模型评估方法有哪些?
- 人工评估:如 LIMA、Phoenix 等。
- 使用 GPT-4 的反馈进行自动评估:
Vicuna、Phoenix、Chimera、BELLE
指标评估(BLEU-4、ROUGE 分数): ChatGLM-6B
对于像 ROUGE-L 分数的指标评估,有些地方称其为非自然指令评估(Unnatural Instruction Evaluation)。
-
ChatbotArena:
目前用来衡量一个模型好不好的方法,基本都是基于一些学术 benchmark,比如在某一个 NLP 任务上构建一个测试数据集,然后看测试数据集上的准确率。然而,这些学术 benchmark(如 HELM)在大模型和聊天机器人上就不好用了,原因如下: -
评判聊天机器人聊得好不好这件事是非常主观的,现有方法很难对其进行衡量;
-
这些大模型在训练时几乎把整个互联网的数据都扫了一遍,因此很难保证测试用的数据集没有被看到过,甚至更进一步,用测试集直接对模型进行“特训”,如此一来表现必然更好;
-
理论上我们可以和聊天机器人聊任何事情,但很多话题或任务在现存的 benchmark 中根本不存在。
因此,ChatbotArena 的做法是放弃 benchmark,通过对抗、实时聊天、两两比对、人工打分,采用 Elo 分数 进行评测。
5. 大模型评估工具有哪些?
- OpenAI Evals:OpenAI 的自动化评估脚本,核心思路是通过写 prompt 模板来自动化评估;
- PandaLM:直接训练了一个自动化打分模型,采用 0/1/2 三分制,用模型对两个候选模型进行打分。
火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐
所有评论(0)