LLMs+医生=最佳诊断组合:研究揭示人机协作提升医疗AI准确性的关键路径!
研究速览
大型语言模型(LLMs)在高风险决策(如医疗诊断)中的应用日益广泛,但其存在幻觉、偏见和常识缺失等局限,这些缺陷可能无法通过更复杂的架构、更多数据或人类反馈彻底解决。

2025年6月13日,由马克斯·普朗克人类发展研究所领衔的多机构团队在《PNAS》上发表题为《Human–AI collectives most accurately diagnose clinical vignettes》的研究。该研究提出一种混合集体智能(Collective Intelligence, CI)系统,结合医生与LLMs的优势,用于开放式医学诊断。研究分析了来自Human Dx平台的40,762份医生诊断和5个先进LLMs对2,133个文本临床案例的诊断结果。结果显示,人类与AI混合集体在多项准确率指标(Top-1、Top-3、Top-5和平均倒数排名MRR)上均显著优于纯医生集体、纯LLMs集合以及个体医生或LLM。这一优势归因于人类与AI的错误类型具有互补性。研究强调,在LLMs存在固有局限的背景下,融合人类专家知识是提升AI系统安全性、准确性与可信度的关键路径。
研究亮点
尽管LLMs在医学领域展现出潜力,但其在实际临床应用中仍面临幻觉、偏见和常识推理不足等挑战。这些缺陷可能源于模型的内在局限,难以通过技术迭代完全消除。与此同时,集体智能(CI)研究已表明,多名诊断专家的集体决策可显著降低错误率,尤其在开放式诊断任务中。
本研究基于Human Dx平台提供的临床案例数据,每个案例包含患者症状、检查结果和病史等信息(图1A)。医生和LLMs均被要求提供排序的鉴别诊断(图1B)。为整合这些开放式响应,研究团队扩展了先前方法,将自由文本诊断映射至SNOMED CT标准化医学术语体系(图1C–D),确保不同来源的诊断可被唯一标识与比较。
聚合方法采用加权多数投票机制(WMVE),考虑每个诊断在列表中的排名(使用1/r加权规则)及其来源(医生或LLM)的历史准确率(图1E)。权重通过五折交叉验证在训练集上学习得到:LLMs因覆盖全部案例可分配个体权重,医生则共享一个集体权重。
研究评估了四种准确率指标:Top-1、Top-3、Top-5(正确诊断是否出现在前1/3/5位)和平均倒数排名(MRR)。此外,还分析了不同医学专科(如心脏病学、神经学)和职业经验水平下的表现一致性。

图1 | 混合集体智能流程示意图
(A)Human Dx平台用户诊断界面截图,展示患者症状、检查结果和病历信息。用户可逐步揭示信息并更新诊断。LLMs接收相同信息作为输入提示。
(B)用户和LLMs提供的开放式文本响应示例。
(C)SNOMED CT条目示例,显示同一ID下的所有同义词都会被匹配。
(D)经过匹配后的人类和LLM诊断。
(E)通过加权聚合人类和LLM诊断得到的集体诊断。LLMs和人类根据其在训练集中的表现被赋予不同权重,诊断排名通过1/r规则进行加权。
研究结果

图2 | 五个个体LLMs及其所有可能组合的集合的交叉验证性能
面板显示四个结果指标(y轴):Top-k 表示正确诊断位于前k位的案例比例(k = {1, 3, 5});MRR 表示跨案例正确诊断的平均倒数排名(公式1)。x轴显示集合中LLMs的数量。水平虚线表示医师的平均个体性能(即先在案例内平均,再在所有案例上平均)。部分集合相互重叠(完整贝叶斯后验分布包括95%可信区间见SI附录图S2和S3)。

图3 | 纯人类集合与人类和LLMs混合集合的交叉验证性能
面板显示四个结果指标(y轴):Top-k 表示正确诊断位于前k位的案例比例(k = {1, 3, 5});MRR 表示跨案例正确诊断的平均倒数排名(公式1)。五个LLMs的个体性能(及其在全部LLM集合中的综合性能)以每种颜色最左侧的方块表示。x轴显示添加到个体LLMs或全部LLM集合中的人类数量。部分集合相互重叠(完整贝叶斯后验分布包括95%可信区间见SI附录图S7和S8)。

图4 | 个体人类和纯人类集合与LLMs解决方案的互补性
(A和B)面板显示,对于五个LLMs中的每一个,矩阵中显示LLM(x轴)和人类(y轴)为正确诊断分配特定排名(即排名1、2、3、4、5或未排名)的案例百分比。(A)个体医师的结果。(B)五人医师纯人类集合的结果。高亮对角线表示LLM和人类为正确诊断分配相同排名的情况。(C和D)面板显示比较个体医师和五人医师集合与LLMs(左侧)以及不同LLMs之间(右侧)将相同诊断排名第一的案例百分比。(C)总体排名第一的一致性,无论是否包含正确诊断。(D)当两位诊断者均错误时排名第一的一致性。结果通过记录医师和LLMs为正确或错误诊断分配相同或不同排名的频率从十倍重复交叉验证程序中提取,跨所有案例和五折平均(材料与方法)。请注意,由于四舍五入为整数,在跨矩阵求和行或列时或将值与正文中报告的相应百分比进行比较时可能存在微小不一致。
AI大模型从0到精通全套学习大礼包
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
只要你是真心想学AI大模型,我这份资料就可以无偿共享给你学习。大模型行业确实也需要更多的有志之士加入进来,我也真心希望帮助大家学好这门技术,如果日后有什么学习上的问题,欢迎找我交流,有技术上面的问题,我是很愿意去帮助大家的!
如果你也想通过学大模型技术去帮助就业和转行,可以扫描下方链接👇👇
大模型重磅福利:入门进阶全套104G学习资源包免费分享!
01.从入门到精通的全套视频教程
包含提示词工程、RAG、Agent等技术点
02.AI大模型学习路线图(还有视频解说)
全过程AI大模型学习路线


03.学习电子书籍和技术文档
市面上的大模型书籍确实太多了,这些是我精选出来的


04.大模型面试题目详解


05.这些资料真的有用吗?
这份资料由我和鲁为民博士共同整理,鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位,在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利,同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。
所有的视频由智泊AI老师录制,且资料与智泊AI共享,相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。
资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。


智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念,通过动态追踪大模型开发、数据标注伦理等前沿技术趋势,构建起"前沿课程+智能实训+精准就业"的高效培养体系。
课堂上不光教理论,还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作,把课本知识变成真本事!

如果说你是以下人群中的其中一类,都可以来智泊AI学习人工智能,找到高薪工作,一次小小的“投资”换来的是终身受益!
应届毕业生:无工作经验但想要系统学习AI大模型技术,期待通过实战项目掌握核心技术。
零基础转型:非技术背景但关注AI应用场景,计划通过低代码工具实现“AI+行业”跨界。
业务赋能 突破瓶颈:传统开发者(Java/前端等)学习Transformer架构与LangChain框架,向AI全栈工程师转型。
👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓
更多推荐
所有评论(0)