大模型评测方法（二）

例如，为了评估医学知识理解能力，可以选择医学文本分类、医学实体识别等任务。在进行大模型基准测试时，首先需要确定测试的指标体系，明确评测的维度和对应指标。例如，医学问答模型需要具备医学知识理解、问题理解、答案生成等能力。例如，对于医学文本分类任务，可以选择准确率、F1分数等指标。根据模型的应用目标，确定需要评测的场景。例如，若要评测一个医学问答模型，则场景为医学问答。对评测结果进行分析，评估模型在不

Guzith

1736人浏览 · 2025-01-13 13:44:13

Guzith · 2025-01-13 13:44:13 发布

测试指标体系

大模型基准评测体系（1/4）

在进行大模型基准测试时，首先需要确定测试的指标体系，明确评测的维度和对应指标。大模型评测的指标体系可以按照场景、能力、任务、指标四层结构进行构建。

场景（Scenario）：定义模型应用的具体环境或条件，例如通用对话、专业领域问答、代码生成等。
能力（Capability）：指模型所具备的各项能力，如理解、生成、推理、知识、安全等。
任务（Task）：为评估特定能力而设计的具体任务，例如文本分类、情感分析、阅读理解等。
指标（Metric）：用于量化模型在任务中的表现，例如准确率、召回率、F1分数等。

四层结构运行机制

1、确定评测场景

根据模型的应用目标，确定需要评测的场景。例如，若要评测一个医学问答模型，则场景为医学问答。

2、明确评测能力

根据场景需求，确定需要评测的模型能力。例如，医学问答模型需要具备医学知识理解、问题理解、答案生成等能力。

3、选择评测任务

针对每项能力，选择合适的评测任务。例如，为了评估医学知识理解能力，可以选择医学文本分类、医学实体识别等任务。

4、选取评测指标

对于每个任务，选择合适的评测指标。例如，对于医学文本分类任务，可以选择准确率、F1分数等指标。

5、构建评测数据集

准备与评测任务和指标相匹配的数据集。

6、执行评测

将模型应用于评测数据集，得到模型的输出结果。

7、计算评测指标

根据模型输出结果和真实标签，计算相应的评测指标。

8、分析评测结果

对评测结果进行分析，评估模型在不同场景、能力和任务上的表现，并找出模型的优缺点。

指标体系-四层结构示例

场景	能力	任务	指标
通用对话	理解、生成	情感分析	准确率、F1分数
		问答	BLEU、 ROUGE、 METEOR
		对话一致性	BLEU、 ROUGE
代码生成	理解、生成	代码补全	BLEU、ROUGE、代码执行正确率
代码生成	理解、生成	代码生成	BLEU、ROUGE、代码质量
科学文献检索	理解、推理	信息检索	MAP、NDCG
科学文献检索	理解、推理	文献摘要	ROUGE、摘要质量

指标计算方式（常用）

详细解释可参考文章机器学习评估指标简介

准确率

描述：衡量模型回答正确的比例。

计算方式：正确回答的数量除以总问题数量。

召回率

描述：体现模型正确识别正样本的能力。

计算方式：正确识别的正样本数量除以实际正样本数量。

精确率

精确率也称为查准率，是衡量模型预测结果中真正例（True Positives，TP）在所有被预测为正例的样本（包括真正例和假正例，即 TP 和 False Positives，FP）中所占的比例。它主要反映了模型在预测为正例的结果中，真正正确的比例有多高，即模型预测的准确性。

计算方式：精确率 = TP / (TP + FP)

F1 Scores

描述：综合考虑精确率和召回率的指标。

计算方式：2 * 精确率 * 召回率 / (精确率 + 召回率)。

BLUE

描述：用于评估文本生成和翻译任务的质量，衡量生成文本与参考文本的相似程度。

计算方式：基于 n-gram 匹配的算法，计算生成文本与参考文本之间的相似度得分。

ROUGE

描述：用于评估摘要生成任务的质量，衡量生成摘要与参考摘要的重合度。

计算方式：通过计算生成摘要和参考摘要中共同出现的 n-gram 的比例来评估摘要的质量。

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

火山引擎 ADG 社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

火山引擎 ADG 社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla