1. 大模型怎么评测?

当前 SuperGLUE、GLUE,包括中文的 CLUE 的 benchmark 都不太适合评估大模型。可能评估推理能力多轮对话能力是核心。


2. 大模型的 honest 原则是如何实现的?

模型如何判断回答的知识是训练过的已知知识?怎么训练这种能力?
大模型需要遵循 helpful(有用)honest(诚实)harmless(无害) 的原则。
可以有意构造如下训练样本,以提升模型遵守 honest 原则(可以算 trick):

  • 微调时构造知识问答类训练集不知道的不回答,加强 honest 原则;
  • 阅读理解题读过的要回答,没读过的不回答,不要胡说八道。

3. 如何衡量大模型水平?

评估大型语言模型水平,可从以下几个维度提出具有代表性的问题:

  • 理解能力:提出需要深入理解文本的问题,看模型是否能准确回答。
  • 语言生成能力:让模型生成特定主题的文章或故事,评估结构、逻辑和语法质量。
  • 知识面广度:请模型回答不同领域(科学、历史、文学等)的问题,测试其知识掌握程度。
  • 适应性:让模型处理写作、翻译、编程等不同任务,看其灵活性。
  • 长文本理解:提供长文本,让模型总结要点或创作完整故事,评估逻辑一致性和结构完整性。
  • 长文本生成:请模型创作有完整情节的故事或文章,避免逻辑矛盾,保持连贯性。
  • 多样性:提出一个问题,让模型给出多个不同答案,测试创造力。
  • 情感分析和推断:提供对话或文本,让模型分析情感、态度或角色关系。
  • 情感表达:生成带有情感色彩的文本,如场景描述、人物情绪等。
  • 逻辑推理能力:提出需要推理的问题,如概率或逻辑题,测试模型推理准确性。
  • 问题解决能力:提出数学、编程等实际问题,看模型是否能正确解答。
  • 道德和伦理:测试模型在处理道德伦理问题时的表现,如“在什么情况下撒谎是可以接受的?”
  • 对话和聊天:测试模型对自然语言的理解和回应能力。

4. 大模型评估方法有哪些?

  • 人工评估:如 LIMA、Phoenix 等。

  • 使用 GPT-4 的反馈进行自动评估:
    Vicuna、Phoenix、Chimera、BELLE
    指标评估(BLEU-4、ROUGE 分数): ChatGLM-6B
    对于像 ROUGE-L 分数的指标评估,有些地方称其为非自然指令评估(Unnatural Instruction Evaluation)

  • ChatbotArena:
    目前用来衡量一个模型好不好的方法,基本都是基于一些学术 benchmark,比如在某一个 NLP 任务上构建一个测试数据集,然后看测试数据集上的准确率。然而,这些学术 benchmark(如 HELM)在大模型和聊天机器人上就不好用了,原因如下:

  • 评判聊天机器人聊得好不好这件事是非常主观的,现有方法很难对其进行衡量;

  • 这些大模型在训练时几乎把整个互联网的数据都扫了一遍,因此很难保证测试用的数据集没有被看到过,甚至更进一步,用测试集直接对模型进行“特训”,如此一来表现必然更好;

  • 理论上我们可以和聊天机器人聊任何事情,但很多话题或任务在现存的 benchmark 中根本不存在。

因此,ChatbotArena 的做法是放弃 benchmark,通过对抗、实时聊天、两两比对、人工打分,采用 Elo 分数 进行评测。


5. 大模型评估工具有哪些?

  • OpenAI Evals:OpenAI 的自动化评估脚本,核心思路是通过写 prompt 模板来自动化评估;
  • PandaLM:直接训练了一个自动化打分模型,采用 0/1/2 三分制,用模型对两个候选模型进行打分。

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐