MedBench: 中国医学大语言模型评估基准研究总结

这篇论文提出了MedBench，一个针对中国医学领域的大规模标准化评估基准。人工评估LLMs耗时耗力现有基准(如MedQAMedMCQA)与医学实践存在明显差距中文医学评估缺乏与中国特色医疗体系匹配的基准现有中文基准(如MLEC-QACMExam)不够全面，缺少住院医师规范化培训和主治医师资格考试内容。

AI生成曾小健

839人浏览 · 2025-08-02 01:58:06

AI生成曾小健 · 2025-08-02 01:58:06 发布

MedBench: 中国医学大语言模型评估基准研究总结

一、研究背景与动机

这篇论文提出了MedBench，一个针对中国医学领域的大规模标准化评估基准。随着各种医学大语言模型(LLMs)在医疗领域的涌现，研究者发现现有的评估标准存在以下问题：

人工评估LLMs耗时耗力
现有基准(如MedQA、MedMCQA)与医学实践存在明显差距
中文医学评估缺乏与中国特色医疗体系匹配的基准
现有中文基准(如MLEC-QA、CMExam)不够全面，缺少住院医师规范化培训和主治医师资格考试内容

二、MedBench基准设计

核心构成

MedBench包含40,041个问题，分为四大组成部分：

中国医师资格考试(CNMLE)：27,248题
住院医师规范化培训考试：2,841题
主治医师资格考试：8,927题
真实临床病例：基于2,000多份电子健康记录筛选出的701份高质量报告，形成1,025个问答对

###

题目类型

A1/A2/B型：单项陈述题，五个选项中有一个正确答案
A3/A4型：基于临床案例的系列问题，五个选项中有一个正确答案
案例分析：给定临床案例，创建系列问题，每题6-12个选项，部分题目可能有多个正确答案

学科覆盖

如图3所示，MedBench涵盖了广泛的医学分支：

住院医师规范化考试涉及内科、外科等
主治医师资格考试进一步细分专业领域

三、核心创新与特点

真实性与新颖性：
- 完全采用专家标注的电子健康记录和真实最新医学考试题目
- 有效避免数据污染问题
全面性与多维度：
- 严格遵循中国医疗标准和实践
- 包含三阶段多学科考试和真实临床病例
实用性：
- 临床真实病例的人工评估确保与医学实践一致
- 难度分层设计支持快速评估

四、评估方法与主要发现

评估模型

测试了通用和医学领域的代表性LLMs：

通用领域：ChatGPT、ChatGLM、Baichuan-13B
医学领域：HuaTuo、ChatMed、BianQue等

主要结果

三阶段考试成绩

表1显示，ChatGPT在三类考试中表现最优，但仍有提升空间：

CNMLE准确率约50%
其他考试约60%
在中西医结合和中医题目上表现较弱(40-45%)

####

真实临床病例表现

表2显示：

GPT-4和ChatGPT表现最好
但自动评估指标(BLEU、ROUGE)分数仍中等
人类评估(图4)确认GPT-4在正确性、完整性、流畅性和友好性上全面领先

###

关键发现

中文医学LLMs表现欠佳：
- 需提升临床知识和诊断准确性
- 上下文学习能力有待改进
通用领域LLMs展现医学潜力：
- 部分通用模型(如ChatGPT)拥有可观医学知识
推理能力差异：
- 多条件单跳推理、陈述识别和多跳推理表现不一
- 思维链提示可显著提升Baichuan-13B表现(图7)

五、方法论创新

研究者采用项目反应理论(IRT)优化评估：

使用三参数逻辑模型(IRT-3PL)划分题目难度
将7,335题分为10个难度等级
验证显示LLMs准确率随难度增加而下降(图8)

六、局限性与未来方向

当前局限：
- 部分模型存在明显幻觉现象
- 临床诊断评估方法仍需完善
未来方向：
- 扩充数据集(含病史和全面体检记录)
- 加强心理测量方法的应用
- 系统评估幻觉现象

七、研究意义

MedBench填补了中文医学LLM评估的空白：

首个全面反映中国医师培养体系的基准
为医学LLM研发提供可靠评估工具
揭示了当前模型的优势与不足
为未来医学AI发展指明了方向

这项研究不仅提出了一个权威评估标准，还通过大量实验揭示了医学LLMs在当前阶段的能力边界，对推动医疗AI发展具有重要价值。

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

火山引擎 ADG 社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

火山引擎 ADG 社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla