交大发布RadFM：全球首个放射科通用大模型，同时处理2D/3D医学图像，性能超越GPT-4V

面向放射学的通用基础模型 RadFM，通过构建包含1600万2D与3D医学图像的大规模多模态数据集 MedMD，设计支持视觉条件生成的统一架构，并建立综合评价基准 RadBench，显著提升了模型在多种放射学任务上的性能。

医学AI望远镜

942人浏览 · 2025-10-13 16:02:58

医学AI望远镜 · 2025-10-13 16:02:58 发布

一、导读

当前医学人工智能领域在构建通用基础模型方面面临三大挑战：缺乏大规模多模态医学数据集、缺乏统一处理多种医学任务的架构、缺乏全面评估基准。本文针对这些挑战，首次提出了一个面向放射学的通用基础模型 RadFM，通过构建包含1600万2D与3D医学图像的大规模多模态数据集 MedMD，设计支持视觉条件生成的统一架构，并建立综合评价基准 RadBench，显著提升了模型在多种放射学任务上的性能。

该研究在模型架构上首次实现了对2D与3D医学图像的统一处理，并在多项任务中超越了包括GPT-4V在内的现有公开模型，为医学多模态基础模型的发展奠定了重要基础。

二、论文基本信息

论文标题：Towards Generalist Foundation Model for Radiology by Leveraging Web-scale 2D&3D Medical Data
作者与单位：Chaoyi Wu, Xiaoman Zhang, Ya Zhang, Yanfeng Wang, Weidi Xie；上海交通大学 & 上海人工智能实验室
发表日期与平台：2023年，发布于arXiv
论文链接：arXiv:2308.02463v5

原文、这里还有各种籽、料👉交大发布RadFM：全球首个放射科通用大模型，同时处理2D/3D医学图像，性能超越GPT-4V

三、摘要精炼

本文旨在构建一个面向放射学的通用基础模型RadFM，其核心贡献包括：构建了包含1600万2D与3D医学图像的大规模多模态数据集MedMD；提出了一种支持视觉条件生成的统一架构，能够处理2D与3D图像并生成自然语言响应；建立了包含五项任务的综合评价基准RadBench。实验表明，RadFM在RadBench上显著优于OpenFlamingo、MedVInT、Med-Flamingo和GPT-4V等公开模型，例如在疾病诊断任务中准确率达到80.62%，在医学视觉问答任务中UMLS_Precision提升至31.77%。此外，RadFM在多个公共基准测试中也取得了最优性能。

四、研究背景与相关工作

近年来，通用基础模型在自然语言处理与计算机视觉领域取得了显著成功，然而在医学领域，尤其是放射学中，其发展仍面临三大挑战：缺乏大规模、多模态、高质量的医学数据集；缺乏能够统一处理多种医学任务的通用架构；缺乏全面、专业的评估基准。

现有研究如MedVInT、Med-Flamingo等大多仅支持2D图像，且任务范围有限，难以满足真实临床需求。本文在此基础上，首次构建了包含2D与3D图像的大规模数据集MedMD，提出了支持多图像输入、多任务统一的生成式架构RadFM，并建立了综合评价基准RadBench，显著推动了医学基础模型的发展。

五、主要贡献与创新

构建大规模多模态医学数据集MedMD：包含1600万2D与3D医学图像，涵盖17个解剖系统和5000多种疾病，首次实现了2D与3D图像的统一标注。

提出统一生成式架构RadFM：基于视觉编码器、感知器模块和大语言模型，支持2D与3D图像的多图像输入与自然语言生成，参数规模达140亿。
建立综合评价基准RadBench：包含模态识别、疾病诊断、视觉问答、报告生成和诊断归因五项任务，共涵盖13个数据集，并引入UMLS_Precision与UMLS_Recall等医学专用评价指标。
在多项任务中显著超越现有模型：在RadBench上，RadFM在疾病诊断任务中准确率达80.62%，在视觉问答任务中UMLS_Precision提升至31.77%，在人类评价中也优于GPT-4V。

六、研究方法与原理

统一学习范式

RadFM采用生成式建模方法，将每个训练样本表示为，其中为文本部分，为图像集合。模型目标为最大化条件概率：

$$p(\mathcal{T}|\mathcal{V}) = \prod p(\mathcal{T}_l | \mathcal{V}_{<l}, \mathcal{t}_{<l})="" $$=""

训练目标为负对数似然：$$\mathcal{L}_{\text{reg}} = -\sum w_l \log \Phi_{\text{RadFM}}(\mathcal{T}_l | \mathcal{V}_{<l}, \mathcal{t}_{<l})="" $$="" 其中为词权重，对医学关键词赋予更高权重。

模型架构

RadFM由三部分组成：

**视觉编码器 **：采用3D ViT，将2D图像通过深度维度扩充为3D输入，输出图像嵌入。
**感知器模块 **：将变长视觉嵌入聚合为固定长度。
**大语言模型 **：将视觉与文本嵌入拼接后输入，生成响应：

训练流程

预训练阶段：使用全部MedMD数据（1600万样本）。
领域微调阶段：使用RadMD数据（300万放射学样本）。

原文、这里还有各种籽、料👉交大发布RadFM：全球首个放射科通用大模型，同时处理2D/3D医学图像，性能超越GPT-4V

七、实验设计与结果分析

实验设置

数据集：RadBench包含五项任务，共13个子数据集，总计约14.4万样本。
对比模型：OpenFlamingo、MedVInT、Med-Flamingo、GPT-4V。
评价指标：ACC、F1、BLEU、ROUGE、BERT-Sim、UMLS_Precision、UMLS_Recall。

关键结果

模态识别：RadFM准确率达92.95%，显著优于其他模型。
疾病诊断：RadFM平均准确率达80.62%，F1为80.10%。
医学视觉问答：RadFM在UMLS_Precision上达到31.77%，BERT-Sim为67.82%。
报告生成：RadFM在UMLS_Precision上为22.49%，UMLS_Recall为12.07%。
诊断归因：RadFM在BLEU上为34.60%，ROUGE为41.89%。
人类评价：RadFM在VQA、报告生成和诊断归因任务中均优于GPT-4V。

局限性

生成长文本的准确性与完整性仍不足；
3D图像在训练数据中占比较低；
自动评价指标在医学文本上仍有局限；
缺乏图像间距等关键元数据；
模型规模大，调优成本高。

八、论文结论与启示

本文通过构建大规模数据集MedMD、提出统一架构RadFM和建立评估基准RadBench，显著推动了放射学基础模型的发展。RadFM在多项任务中表现出色，尤其是在处理2D与3D图像、多图像输入和自然语言生成方面具备明显优势。该研究为医学多模态模型的开发提供了完整的技术路线与评估标准，未来可进一步优化长文本生成能力、增加3D数据比例、开发更精准的自动评价指标，并探索模型在更多临床场景中的应用。

九、整体评价与讨论

优点

首次实现了对2D与3D医学图像的统一处理；
构建了目前最大规模的医学多模态数据集；
提出了支持多图像输入与自然语言生成的通用架构；
建立了全面、专业的评估基准RadBench；
在多项任务中显著优于现有公开模型。

不足与改进方向

生成长文本的准确性与临床可用性仍有待提升；
3D图像比例不足，限制了模型对三维结构的理解；
自动评价指标未能完全反映医学文本的语义准确性；
缺乏关键元数据（如图像间距）限制了某些诊断任务的精度；
模型规模大，训练与调优成本高，限制了可复现性与扩展性。

未来研究可着重于提升生成质量、增加3D数据、开发医学专用评价指标，并探索模型在更多临床任务中的迁移能力。

原文、这里还有各种籽、料👉交大发布RadFM：全球首个放射科通用大模型，同时处理2D/3D医学图像，性能超越GPT-4V

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

火山引擎 ADG 社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

火山引擎 ADG 社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla