简介

研究提出混合集体智能(HCI)方法,结合医生临床推理与LLM信息处理能力,对2,133个病例进行加权融合。结果显示混合集体诊断准确率显著优于人类或AI单独决策。关键在于错误互补性:AI漏诊时医生能补上,医生失误时AI能捕捉细节。多模型集成优于单模型,人机混合集体表现最佳,为医疗诊断提供更精准、安全的解决方案。


医生与AI大模型的协同诊疗,正从技术概念走向临床现实。普林斯顿大学团队基于强化学习开发的ICU决策优化模型,结合近期DeepSeek-R1、GPT-5等大模型在诊断环节的突破性表现,共同勾勒出“人机协同”的新范式——人类医生的全局经验与AI的高维计算能力互补,形成“1+1>2”的临床决策升级。以下从核心技术、应用场景及未来挑战三方面展开分析!


摘要

在高风险的医疗诊断领域,单纯依赖大型语言模型(LLMs)或人类医生都存在局限——LLMs 会幻觉、缺乏常识且有偏见;人类则受经验局限与知识覆盖面的限制。本研究提出一种混合集体智能(Hybrid Collective Intelligence, HCI)方法,将医生的临床推理与 LLM 的信息处理能力结合,对 2,133 个真实感病例(含 40,762 份医生诊断与 5 个最先进 LLM 的诊断输出)进行加权融合。结果显示,混合集体在所有专业与经验层级下的诊断准确率均显著优于人类单独、AI 单独及各自的集体形式。


背景

每年美国约 79.5 万例死亡或永久伤残与诊断错误相关。尽管 LLM 在自然语言处理与多领域问答中表现出色,包括医学在内的众多场景,但它们的结构性缺陷(如幻觉、偏见、缺乏常识让其在临床高风险应用中存在安全隐患。
研究表明,“集体智能”能通过不同专家独立判断的组合提升整体准确性。本研究创新地将人类专家与多个 LLM 视为“同台评审”,利用各自优势与互补性,构建混合集体智能体系。

为什么 1+1>2?关键在于错误类型的差异性:

  • 当 AI 漏诊时,医生往往能给出正确答案(尤其在复杂病例中)

  • 当医生判断失误时,AI 可能捕捉到被忽略的细节

  • 混合团队的诊断 “容错率” 显著更高

举个例子:在一例 “俄亥俄州建筑工人胸痛” 病例中,AI 更易联想到真菌感染(当地高发),而医生可能优先考虑职业相关肺部疾病,二者结合最终锁定 “组织胞浆菌病”。


研究方法

数据来源

  • Human Diagnosis Project (Human Dx)

    平台

  • 2,133 个经过执业医生审核的文本病例

  • 诊断来源:1,370 名主治医师、139 名专科培训医师、2,160 名住院医师(再加 1,037 名医学生用于补充分析)

LLM 选择

  1. Anthropic Claude 3 Opus
  2. Google Gemini Pro 1.0
  3. Meta LLaMA 2 70B
  4. Mistral Large
  5. OpenAI GPT-4
    每个模型需输出前五个最可能的诊断

融合流程

  1. 标准化处理

    将所有人类与 LLM 的原始诊断映射至 SNOMED CT 唯一 ID,统一同义词、缩写、英式/美式拼写等

  2. 加权多数投票

  • 根据训练集表现为各 LLM 赋予不同权重;所有医生共用一个权重值
  • 使用 1/r 规则 按诊断排名赋分
  • 采用加权多数投票合成最终列表
  1. 交叉验证

    10 次重复五折交叉验证,确保模型泛化稳定

性能指标

  • Top-1 / Top-3 / Top-5 准确率
  • 平均倒数排名(MRR)

主要研究结果

1. 多模型集成优于单模型

将多个 LLM 输出组合成 AI 集体,在 Top-5 与 Top-3 准确率上均优于任何单一 LLM,并在多个专科中保持稳定领先。

2. 人机混合集体全线胜出

  • 向医生集体加入一个 LLM,可超越纯医生组

  • 向 LLM 集体加入一位医生,也能提升整体准确率

  • 即使加入表现最差的 LLM,也带来轻微提升。

3. 错误互补性是关键

  • 46%–51% 的病例中,医生与 LLM 对正确诊断的排名不同
  • 当 LLM 完全漏掉正确诊断时,医生在 30%–38% 的病例中能补上,大部分排在第一位
  • 这种低相关错误模式让加权投票更易推高正确诊断排名。

主要创新点

  1. 开放性答案的自动标准化

    基于 SNOMED CT 的全文匹配与向量搜索匹配,处理了同义词、拼写差异与缩写等问题,实现精准对齐。

  2. 权重化人机投票机制

    通过 WMVE(加权多数投票)方式按历史表现分配权重,优胜者得更多表决力。

  3. 跨模态可迁移性

    方法依赖结构化知识体系,可移植至气候政策等其他开放性、高风险领域。


未来研究方向

  • 临床实地验证

    :目前为病例小故事(vignette)测试,需转化到真实临床环境

  • 治疗影响评估

    :诊断改善是否带来治疗方案优化?

  • 偏见与公平性

    :混合集体是否能减少 AI 及人类共有的偏见?

  • Prompt 工程优化

    :Tree-of-Thought、自一致性等方法可望进一步提升表现

  • 多模态融合

    :将影像、声音等数据加入诊断流程

  • 决策支持系统化

    :研究如何在临床工作流中最佳整合,防止自动化偏见与算法厌恶


结论

混合集体智能不是要取代医生,而是利用人类的临床洞察与 AI 的信息整合能力互补,让医疗诊断更精准、更安全、更公平。

:将影像、声音等数据加入诊断流程

  • 决策支持系统化

    :研究如何在临床工作流中最佳整合,防止自动化偏见与算法厌恶

AI大模型学习路线

如果你对AI大模型入门感兴趣,那么你需要的话可以点击这里大模型重磅福利:入门进阶全套104G学习资源包免费分享!

这份完整版的大模型 AI 学习和面试资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

在这里插入图片描述

这是一份大模型从零基础到进阶的学习路线大纲全览,小伙伴们记得点个收藏!

请添加图片描述
第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

100套AI大模型商业化落地方案

请添加图片描述

大模型全套视频教程

请添加图片描述

200本大模型PDF书籍

请添加图片描述

👉学会后的收获:👈

• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

LLM面试题合集

请添加图片描述

大模型产品经理资源合集

请添加图片描述

大模型项目实战合集

请添加图片描述

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

在这里插入图片描述

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐