Nature Biomedical Engineering IF=26.8 | GPFM:基于统一知识蒸馏预训练框架的泛化性病理基础模型

当前,现有病理基础模型(Foundation Models, FMs)存在泛化能力局限—— 仅在特定任务(如 WSI 分类、报告生成)中表现优异,难以覆盖临床所需的多样化任务类型,且缺乏统一基准进行全面性能评估。

本文解读发表于《Nature Biomedical Engineering》的最新研究成果 ——GPFM(Generalizable Pathology Foundation Model),一种基于统一知识蒸馏预训练框架的病理基础模型。该模型通过整合多专家模型知识与自我蒸馏策略,在 6 大类 72 个病理任务中实现泛化性突破,为计算病理学的临床落地提供了关键技术支撑。
在这里插入图片描述

基本信息

  • 论文标题:A generalizable pathology foundation model using a unified knowledge distillation pretraining framework

  • 期刊来源:Nature Biomedical Engineering

  • 发表日期:2025年9月2日

  • 研究单位:香港科技大学、南方医科大学南方医院、上海人工智能实验室、Monash 大学等多中心联合研究(完整作者单位见文末 “作者 affiliations”)

  • GitHub 地址https://github.com/birkhoffkiki/GPFM/

  • 数据集规模

    • 总计 95,572 张病理切片,涵盖 34 种主要组织类型,来源于 56 个数据源;

    • 预训练数据:72,280 张切片,提取 1.9 亿个 512×512 像素的图像块(patch);

    • 下游任务评估数据:23,292 张切片及多个 patch 级数据集,覆盖 72 个具体任务。

创新点总结

  1. 统一知识蒸馏框架:首次融合 “专家知识蒸馏” 与 “自我知识蒸馏”,前者学习多专家模型(如 UNI、Phikon、CONCH)的优势,后者通过局部 - 全局对齐优化图像表征;
  2. 大规模多样化数据集:整合 56 个数据源的病理数据,覆盖 34 种组织类型,解决现有模型训练数据单一导致的泛化局限;
  3. 全任务泛化能力:在 6 大类 72 个病理任务中实现领先,平均排名 1.6,42 个任务排名第一,打破 “单模型仅擅长特定任务” 的瓶颈;
  4. 临床实用性突出:支持癌症亚型分类、基因变异预测、生存风险评估等核心临床任务,且在低标注场景(如罕见病)中表现稳健;

一、研究背景与意义

1. 计算病理学的发展需求

数字病理技术(如 WSI)的普及推动了 CPath 的兴起,其核心能力包括:

  • 直接从 WSI 中实现癌症亚型分类、基因变异预测(如 TP53、IDH1 突变);

  • 评估患者生存风险与治疗响应(如 PD-(L) 1 抑制剂疗效);

  • 替代传统人工阅片,提升诊断效率与一致性。

然而,临床病理任务的多样性(从图像分类到文本生成)与数据稀缺性(标注成本高、罕见病样本少),导致 “为每个任务单独训练模型” 的模式既耗时又不切实际。因此,开发具备跨任务泛化能力的基础模型成为 CPath 领域的核心需求。

2. 现有病理基础模型的局限

现有模型(如 UNI、Phikon、CONCH)存在显著短板:

  • 任务覆盖有限:多数模型仅在 1-2 类任务中评估(如 UNI 擅长 WSI 分类,Phikon 擅长报告生成,CONCH 擅长 VQA),缺乏全场景验证;

  • 泛化能力不足:训练数据来源单一(如仅依赖 TCGA 数据集),在跨中心、跨人群数据上性能下降;

  • 无统一基准:不同研究采用不同评估指标与任务,无法客观对比模型优劣。

3. GPFM 的研究意义

为解决上述问题,研究团队:

  • 建立了首个覆盖6 大类任务(WSI 分类、生存分析、ROI 分类、图像检索、VQA、报告生成)共 72 个具体任务的统一基准;

  • 提出 GPFM 模型,通过统一知识蒸馏整合多专家模型的优势,突破泛化性瓶颈;

  • 验证了 “间接利用专家模型知识替代大规模私有数据” 的可行性,为数据隐私受限场景提供解决方案。

二、研究内容与方法

GPFM 的开发流程遵循 “数据构建→预训练框架→下游任务验证” 的闭环,核心分为三大模块:

1. 数据集构建:多样化与规模化

为提升模型泛化性,研究团队整合了 56 个公开与私有数据源,确保数据的地域代表性组织多样性

  • 数据规模:95,572 张 WSI,涵盖 34 种主要组织类型(如乳腺、肺、结直肠、肾等);

  • 数据处理

    • 采用 OpenSlide 与 CLAM 工具包提取非重叠 512×512 像素 patch,保留原始分辨率以提升模型对不同成像条件的适应性;

    • 对 ROI 级数据集(如 CRC-100K、PathVQA)直接提取 patch,用于预训练与下游任务评估;

  • 数据拆分:预训练数据(72,280 张 WSI)与下游任务数据(23,292 张 WSI+patch 级数据)严格分离,避免数据泄露。

GPFM 数据集包含大规模收集的 95,572 张切片,涵盖 34 种主要组织类型,可为模型提供全面的训练与评估支持。

2. 预训练框架:统一知识蒸馏

GPFM 的核心创新在于 “专家知识蒸馏 + 自我知识蒸馏 + 掩码图像建模(MIM)” 三位一体的预训练策略,模型架构基于 ViT(Vision Transformer)设计,分为学生网络与教师网络(通过指数移动平均(EMA)更新)。
用于专家知识蒸馏的专家模型,是根据其在 6 类不同临床任务中的平均性能筛选得出的。

(1)专家知识蒸馏

  • 核心目标:借鉴多个已有优秀模型(专家模型)的知识,把它们各自擅长的能力融合到一个统一模型(学生模型,GPFM)中。
  • 实现方式
    选取在不同任务上表现最佳的专家模型(如 UNI 在分类最优,Phikon 在报告生成最优,CONCH 在 VQA 最优)。
    通过对齐 [CLS] token(全局特征)[PATCH] token(局部特征),让学生网络的表征与专家网络保持一致。
    使用 余弦相似度损失 + Smooth L1 损失 来约束学生模型学习专家的特征空间。

(2)自我知识蒸馏

  • 核心目标:让同一个模型在不同视角下保持一致的表征,提高模型的稳定性和鲁棒性。

  • 实现方式

    • 借鉴 DINOv2 思路:将图像裁剪成 全局视角局部视角 patch。

    • 教师网络(由学生网络的参数 EMA
      更新)输出全局特征,学生网络学习对齐。

    • 通过对比学习损失来让局部和全局特征保持一致。

(DINOv2 是一种常用的自监督预训练方法,常被用于构建病理领域的基础模型,其核心思路包含教师 - 学生网络架构,并通过掩码图像建模(MIM)损失与 DINO(自我蒸馏)损失优化模型;研究中为验证 “专家知识蒸馏” 的有效性,曾移除 GPFM 的专家知识蒸馏模块,得到类似 DINOv2 的框架。)

(3)掩码图像建模(MIM)

  • 核心目标:让模型学会从不完整的图像中恢复缺失部分,从而捕捉图像的底层结构和语义。

  • 实现方式

    • 随机遮盖输入图像的一部分(如40%patch)。
    • 学生网络通过Transformer预测被遮挡区域的表征或像素特征。

预训练算法包含三个关键组件,分别是(1)掩码图像建模(MIM)、(2)自蒸馏和(3)专家知识蒸馏。GPFM 的参数通过指数移动平均(EMA)进行更新。

3.下游任务覆盖:全场景临床需求

GPFM 在 6 大类 72 个任务中进行评估,覆盖临床病理的核心场景:

(1) WSI 分类(36 个任务):癌症亚型分类(如肺癌 NSCLC 亚型、乳腺癌 IDC/ILC 亚型)、基因变异预测(如 LUAD 的 TP53 突变、胶质瘤的 IDH1 突变)、转移灶检测(如乳腺癌淋巴结转移);

(2) 生存分析(15 个任务):基于 WSI 预测患者生存风险(如 TCGA-BRCA、TCGA-LUAD 等 14 个 TCGA 数据集 + HANCOCK 外部验证集),评估指标为 C-index;

(3)ROI 分类(16 个任务):组织类型分类(如结直肠腺癌上皮与间质)、肿瘤浸润淋巴细胞(TIL)检测、微卫星不稳定(MSI)筛查;

(4) 病理图像检索(1 个任务):基于 CRC-100K 数据集,实现 “图像 - 图像” 检索,评估指标为 Top-1/3/5 准确率;

(5) 病理图像 VQA(2 个任务):Patch 级(PathVQA 数据集)与 WSI 级(WSI-VQA 数据集)问答,如 “图像中是否存在急性炎症?”;

(6) 病理报告生成(2 个任务):基于 TCGA WSI-Report 与 PatchGastricADC22 数据集,生成结构化病理报告,评估指标为 BLEU、METEOR、ROUGE-L。
下游任务评估

三、实验结果分析

研究团队通过 “排名对比” 与 “指标量化” 双维度评估 GPFM,核心结果如下:

1. 全任务整体性能:泛化性领先

在 72 个任务的综合评估中,GPFM 显著优于现有模型(如 UNI、Phikon、CONCH):

  • 平均排名:1.6(42 个任务排名第一),第二名 UNI 平均排名 3.7(仅 6 个任务第一);

  • 平均指标:所有任务平均得分 0.833,高于 UNI 的 0.818(Wilcoxon 检验,P<0.001);

  • 统计显著性:通过 Nemenyi 检验验证,GPFM 与其他 8 个模型的性能差异具有统计学意义(临界差异图中独立于其他模型)。

2. 关键任务详细结果

(1)WSI 分类:癌症诊断核心能力
  • 任务表现:36 个任务平均排名 1.22,AUC 0.891(比 UNI 高 1.6%,P<0.001),平衡准确率 0.752(高 3.1%),加权 F1 0.736(高 3.0%);
(2)生存分析:临床预后价值
  • 任务表现:15 个任务平均排名 2.1,平均 C-index 0.665(比 UNI 高 3.4%,P<0.001),13 个任务排名前 2;
(3)ROI 分类:局部特征理解能力
  • 任务表现:16 个任务平均排名 1.88,平均 AUC 0.946(比 Prov-Gigapath 高 0.2%,P<0.001);
(4)病理图像检索:病例匹配与教学
  • CRC-100K 数据集结果:Top-1 准确率 0.906(仅次于 Prov-Gigapath),Top-3 准确率 0.993(高 0.5%),Top-5 准确率 0.995(高 0.2%);

  • 特征聚类:t-SNE 可视化显示,GPFM 提取的特征聚类更紧密,查询图像与目标类别簇重叠度高,证明特征判别性强。

(5)病理图像 VQA:临床交互与解释
  • Patch 级 VQA:PathVQA 数据集整体准确率仅次于 CONCH(视觉 - 语言模型),显著优于纯视觉模型(如 UNI、Phikon);

  • WSI 级 VQA:WSI-VQA 数据集 7 个指标中 6 个排名前 2,与幻灯片级模型 CHIEF 性能相当,证明跨尺度理解能力。

(6)病理报告生成:自动化文档辅助
  • 量化指标:TCGA 与 PatchGastricADC22 数据集上排名第二(仅次于 Phikon),BLEU-4 0.78(Phikon 为 0.81);

  • 人类评估:经验病理学家采用 4 级评分(1.0 = 完全正确,0.0 = 完全错误),GPFM 在乳腺癌、肺癌、肾癌报告中平均得分 0.82,高于其他模型(UNI 0.65,Phikon 0.79),临床实用性突出。

3. 专家知识蒸馏的有效性验证

为验证核心组件的价值,研究对比了 “GPFM(含专家蒸馏)” 与 “DINOv2(无专家蒸馏)” 的性能:

  • 12 个 ROI 分类任务中,GPFM 的 AUC 提升 0.6%,加权 F1 提升 1.8%,平衡准确率提升 1.8%(P<0.001);

  • 证明 “整合专家模型知识” 可有效弥补训练数据的局限性,是泛化能力提升的关键。

四、优势与局限

1. 优势:

  1. 泛化能力全面:打破 “单模型仅擅长特定任务” 的局限,在 6 大类 72 个任务中保持领先,尤其适合临床多场景需求;

  2. 知识整合高效:通过统一知识蒸馏间接利用专家模型知识,避免对大规模私有数据的依赖,兼顾数据隐私与模型性能;

  3. 临床实用性强:支持从 “图像分析”(分类、检索)到 “文本交互”(VQA、报告生成)的全流程辅助,且提供可视化解释(注意力热力图);

2. 局限:

  1. 部分任务仍有优化空间:在报告生成任务中仍略逊于 Phikon,VQA 任务中不及 CONCH,说明蒸馏策略需进一步优化以突出专家模型的核心优势;

  2. 单模态局限:当前为纯视觉模型,无法直接处理临床中的多模态数据(如 WSI + 电子病历、基因组数据),跨模态能力待提升;

  3. 部署效率待优化:模型规模较大,在边缘设备(如病理科本地计算机)上的推理速度较慢,需通过模型压缩(如量化、剪枝)提升部署适应性;

  4. 数据偏差:训练数据虽覆盖 34 种组织类型,但仍以亚洲人群样本为主,在其他族群中的泛化性需进一步验证。

五、参考文献(核心重点文献)

  1. UNI:首个病理通用基础模型

    Chen, R. J. et al. Towards a general-purpose foundation model for computational pathology. Nat. Med. 30, 850–862 (2024).

    (GPFM 的主要对比模型之一,擅长 WSI 分类,为专家知识蒸馏提供 WSI 分析能力基础)

  2. CONCH:病理视觉 - 语言模型

    Lu, M. Y. et al. A visual-language foundation model for computational pathology. Nat. Med. 30, 863–874 (2024).

    (擅长 VQA 任务,为 GPFM 的跨模态能力提供专家知识)

  3. DINOv2:自监督视觉基础模型

    Oquab, M. et al. Dinov2: Learning Robust Visual Features Without Supervision. TMLR (2024).

    (GPFM 自我蒸馏模块的基础框架,通过对比验证专家知识蒸馏的价值)

  4. Phikon:病理报告生成模型

    Filiot, A. et al. Scaling self-supervised learning for histopathology with masked image modeling. medRxiv https://doi.org/10.1101/2023.07.21.23292757 (2023).

    (擅长报告生成,为 GPFM 的文本生成能力提供专家知识)

  5. 数字病理技术基础

    Niazi, M. K. K., Parwani, A. V. & Gurcan, M. N. Digital pathology and artificial intelligence. Lancet Oncol. 20, 253–261 (2019).

    (概述数字病理与 AI 的结合背景,为 GPFM 的临床应用场景提供理论基础)

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐