一、导读

当前医学人工智能领域在构建通用基础模型方面面临三大挑战:缺乏大规模多模态医学数据集、缺乏统一处理多种医学任务的架构、缺乏全面评估基准。本文针对这些挑战,首次提出了一个面向放射学的通用基础模型 RadFM,通过构建包含1600万2D与3D医学图像的大规模多模态数据集 MedMD,设计支持视觉条件生成的统一架构,并建立综合评价基准 RadBench,显著提升了模型在多种放射学任务上的性能。

该研究在模型架构上首次实现了对2D与3D医学图像的统一处理,并在多项任务中超越了包括GPT-4V在内的现有公开模型,为医学多模态基础模型的发展奠定了重要基础。

二、论文基本信息

  • 论文标题:Towards Generalist Foundation Model for Radiology by Leveraging Web-scale 2D&3D Medical Data

  • 作者与单位:Chaoyi Wu, Xiaoman Zhang, Ya Zhang, Yanfeng Wang, Weidi Xie;上海交通大学 & 上海人工智能实验室

  • 发表日期与平台:2023年,发布于arXiv

  • 论文链接:arXiv:2308.02463v5

原文、这里 还有各种籽、料👉交大发布RadFM:全球首个放射科通用大模型 ,同时处理2D/3D医学图像,性能超越GPT-4V

三、摘要精炼

本文旨在构建一个面向放射学的通用基础模型RadFM,其核心贡献包括:构建了包含1600万2D与3D医学图像的大规模多模态数据集MedMD;提出了一种支持视觉条件生成的统一架构,能够处理2D与3D图像并生成自然语言响应;建立了包含五项任务的综合评价基准RadBench。实验表明,RadFM在RadBench上显著优于OpenFlamingo、MedVInT、Med-Flamingo和GPT-4V等公开模型,例如在疾病诊断任务中准确率达到80.62%,在医学视觉问答任务中UMLS_Precision提升至31.77%。此外,RadFM在多个公共基准测试中也取得了最优性能。

四、研究背景与相关工作

近年来,通用基础模型在自然语言处理与计算机视觉领域取得了显著成功,然而在医学领域,尤其是放射学中,其发展仍面临三大挑战:缺乏大规模、多模态、高质量的医学数据集;缺乏能够统一处理多种医学任务的通用架构;缺乏全面、专业的评估基准。

现有研究如MedVInT、Med-Flamingo等大多仅支持2D图像,且任务范围有限,难以满足真实临床需求。本文在此基础上,首次构建了包含2D与3D图像的大规模数据集MedMD,提出了支持多图像输入、多任务统一的生成式架构RadFM,并建立了综合评价基准RadBench,显著推动了医学基础模型的发展。

五、主要贡献与创新

  1. 构建大规模多模态医学数据集MedMD:包含1600万2D与3D医学图像,涵盖17个解剖系统和5000多种疾病,首次实现了2D与3D图像的统一标注。

  1. 提出统一生成式架构RadFM:基于视觉编码器、感知器模块和大语言模型,支持2D与3D图像的多图像输入与自然语言生成,参数规模达140亿。

  2. 建立综合评价基准RadBench:包含模态识别、疾病诊断、视觉问答、报告生成和诊断归因五项任务,共涵盖13个数据集,并引入UMLS_Precision与UMLS_Recall等医学专用评价指标。

  3. 在多项任务中显著超越现有模型:在RadBench上,RadFM在疾病诊断任务中准确率达80.62%,在视觉问答任务中UMLS_Precision提升至31.77%,在人类评价中也优于GPT-4V。

六、研究方法与原理

统一学习范式

RadFM采用生成式建模方法,将每个训练样本表示为 ,其中  为文本部分, 为图像集合。模型目标为最大化条件概率:

$$p(\mathcal{T}|\mathcal{V}) = \prod p(\mathcal{T}_l | \mathcal{V}_{<l}, \mathcal{t}_{<l})="" $$="" 

训练目标为负对数似然:$$\mathcal{L}_{\text{reg}} = -\sum w_l \log \Phi_{\text{RadFM}}(\mathcal{T}_l | \mathcal{V}_{<l}, \mathcal{t}_{<l})="" $$="" 其中  为词权重,对医学关键词赋予更高权重。

模型架构

RadFM由三部分组成:

  1. **视觉编码器 **:采用3D ViT,将2D图像通过深度维度扩充为3D输入,输出图像嵌入 。

  2. **感知器模块 **:将变长视觉嵌入聚合为固定长度 。

  3. **大语言模型 **:将视觉与文本嵌入拼接后输入,生成响应:

训练流程

  • 预训练阶段:使用全部MedMD数据(1600万样本)。

  • 领域微调阶段:使用RadMD数据(300万放射学样本)。

原文、这里 还有各种籽、料👉交大发布RadFM:全球首个放射科通用大模型 ,同时处理2D/3D医学图像,性能超越GPT-4V

七、实验设计与结果分析

实验设置

  • 数据集:RadBench包含五项任务,共13个子数据集,总计约14.4万样本。

  • 对比模型:OpenFlamingo、MedVInT、Med-Flamingo、GPT-4V。

  • 评价指标:ACC、F1、BLEU、ROUGE、BERT-Sim、UMLS_Precision、UMLS_Recall。

关键结果

  1. 模态识别:RadFM准确率达92.95%,显著优于其他模型。

  2. 疾病诊断:RadFM平均准确率达80.62%,F1为80.10%。

  3. 医学视觉问答:RadFM在UMLS_Precision上达到31.77%,BERT-Sim为67.82%。

  4. 报告生成:RadFM在UMLS_Precision上为22.49%,UMLS_Recall为12.07%。

  5. 诊断归因:RadFM在BLEU上为34.60%,ROUGE为41.89%。

  6. 人类评价:RadFM在VQA、报告生成和诊断归因任务中均优于GPT-4V。

局限性

  • 生成长文本的准确性与完整性仍不足;

  • 3D图像在训练数据中占比较低;

  • 自动评价指标在医学文本上仍有局限;

  • 缺乏图像间距等关键元数据;

  • 模型规模大,调优成本高。

八、论文结论与启示

本文通过构建大规模数据集MedMD、提出统一架构RadFM和建立评估基准RadBench,显著推动了放射学基础模型的发展。RadFM在多项任务中表现出色,尤其是在处理2D与3D图像、多图像输入和自然语言生成方面具备明显优势。该研究为医学多模态模型的开发提供了完整的技术路线与评估标准,未来可进一步优化长文本生成能力、增加3D数据比例、开发更精准的自动评价指标,并探索模型在更多临床场景中的应用。

九、整体评价与讨论

优点

  • 首次实现了对2D与3D医学图像的统一处理;

  • 构建了目前最大规模的医学多模态数据集;

  • 提出了支持多图像输入与自然语言生成的通用架构;

  • 建立了全面、专业的评估基准RadBench;

  • 在多项任务中显著优于现有公开模型。

不足与改进方向

  • 生成长文本的准确性与临床可用性仍有待提升;

  • 3D图像比例不足,限制了模型对三维结构的理解;

  • 自动评价指标未能完全反映医学文本的语义准确性;

  • 缺乏关键元数据(如图像间距)限制了某些诊断任务的精度;

  • 模型规模大,训练与调优成本高,限制了可复现性与扩展性。

未来研究可着重于提升生成质量、增加3D数据、开发医学专用评价指标,并探索模型在更多临床任务中的迁移能力。

原文、这里 还有各种籽、料👉交大发布RadFM:全球首个放射科通用大模型 ,同时处理2D/3D医学图像,性能超越GPT-4V

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐