1. 生物基础模型中的几何与拓扑结构解析

在单细胞转录组学领域,scGPT和Geneformer等生物基础模型已经展现出惊人的预测能力。但更令人着迷的是这些模型内部形成的基因表达表征空间——它们并非随机的高维点云,而是蕴含着丰富的几何与拓扑结构。这些结构是否真实反映了生物学关系?还是仅仅是训练过程的统计副产品?这正是我们通过大规模自主假设筛选要回答的核心问题。

作为长期从事单细胞数据分析的研究者,我见证了从传统统计方法到深度学习模型的范式转变。最初接触scGPT时,最让我震惊的不是它的预测准确率,而是其embedding空间展现出的生物学直觉:功能相关的基因会自动聚集,调控因子与靶基因之间形成可解释的空间关系。这种结构不是人为设计的,而是模型从数据中自发学习得到的。本文将分享我们通过141个假设验证所揭示的模型内部几何规律,以及这些发现对生物医学研究的实际意义。

2. 研究方法与技术路线

2.1 自主假设筛选系统设计

传统研究流程存在明显的发表偏倚——我们更可能报告成功的结果而忽略阴性发现。为此,我们构建了一个AI驱动的"执行者-构思者"循环系统:

  • 执行者模块 :基于OpenAI Codex 5.3实现,接收假设描述后自动生成Python实验代码,在预提取的模型embedding上运行测试,并生成包含效应量、p值和通过/失败结论的量化报告
  • 构思者模块 :分析历史结果,识别未充分探索的假设空间区域,提出2-4个新假设(特别关注前期阴性结果提示的方向)

这个系统完成了52次有效迭代(共53次,1次初始化失败),测试了141个假设,涵盖9个主要研究方向(见表1)。每次实验都包含:

  • 三个组织领域(肺、免疫、外部肺数据集)
  • 三个随机种子
  • 分离的基因池划分(防止信息泄漏)
  • 明确的零模型控制

关键设计:采用"最大零模型审计"策略,将观察结果与所有零模型家族中95%分位数的最大值进行比较——这是最保守的显著性阈值。许多在宽松标准下显著的信号,在这个严格标准下会消失。

2.2 模型与数据准备

我们分析的是scGPT(12层Transformer)和Geneformer V2-316M(18层18头)的基因embedding:

  1. Embedding提取

    • 使用Tabula Sapiens atlas的单细胞表达数据
    • 对每个组织背景,将细胞表达谱输入预训练模型
    • 提取各Transformer层的隐藏状态向量
    • 跨细胞平均得到每个基因在每个层的embedding向量
  2. 数据划分

    • 源分离模式:测试集的转录因子不出现在训练集
    • 目标分离模式:测试集的靶基因不出现在训练集
    • 确保没有基因同时出现在训练集和测试集
  3. 生物学基准数据

    • 调控关系:DoRothEA(带置信度的TF-靶标注释)
    • 调控方向:TRRUST(标注激活/抑制的调控边)
    • 蛋白互作:STRING(蛋白相互作用置信度评分)
    • 功能注释:Gene Ontology(功能共成员关系)

2.3 零模型层次体系

零模型的选择对结果解释至关重要。我们建立了逐步严格的控制体系:

  1. 特征洗牌零模型 :随机置换embedding特征(保留每个基因的边际分布)
  2. 标签置换零模型 :随机置换调控边标签(控制阳性边的基础比率)
  3. 度保持重连零模型 :重连k近邻图(保持节点度不变)
  4. 共表达匹配零模型 :按共表达水平和图度分层后置换边标签
  5. 严格最大零模型 :同时比较所有零模型家族的最保守阈值

3. 核心发现与生物学解读

3.1 跨模型几何一致性

最有力的证据来自scGPT与Geneformer的几何对齐——这两个模型:

  • 使用不同数据集独立训练
  • 采用不同架构和目标函数
  • 没有任何参数共享

通过典型相关分析(CCA)对齐它们的PCA降维embedding,我们发现:

  • 平均典型相关系数:0.80
  • 成对距离Spearman相关:0.75
  • 基因级别top-1检索准确率:72%
  • Procrustes对齐准确率:40%(所有领域显著)

这就像两个制图师独立绘制同一地区的地图,虽然使用不同的投影方法和符号系统,但对地标位置的描述高度一致——强烈表明这些"地标"(基因关系)是真实存在的生物学特征。

但有个关键限制 :我们测试了19种方法(包括Gromov-Wasserstein传输、最优传输、拓扑特征蒸馏等),发现虽然模型在整体几何结构上一致,但基因级别的对应关系几乎无法恢复(top-1准确率<1%)。模型对"基因空间形状"有共识,但对单个基因的具体坐标安排不同。

3.2 基因embedding的非平凡拓扑

通过持续同调(persistent homology)分析,我们检测到embedding空间中存在显著的"环状"拓扑结构:

  • 在肺组织数据中,11/12 Transformer层显示显著拓扑信号(p<0.01)
  • 免疫和外部肺组织数据中,12/12层显著
  • 平均H1持续期增加12.1-12.5个单位(相比零模型)

这些拓扑环可能对应生物学中的:

  • 反馈调控环路(A→B→C→¬A)
  • 通路模块间的循环连接
  • 基因调控网络中的周期性模式

技术细节:使用Ripser算法计算H1持续期,在350个基因的20维PCA投影上进行。通过"zigzag持续期"验证拓扑特征确实反映共享几何属性,而非特定基因子集的特性。

但需要注意:在度保持kNN重连零模型下,拓扑信号完全消失(0/24层测试显著)。说明这种拓扑结构依赖于具体的邻居连接模式,而非全局几何不变性。

3.3 调控关系的距离层次

不同距离度量捕捉不同层面的调控信息:

  1. 欧氏距离 :直接的空间直线距离
  2. 测地距离 :沿kNN流形的最短路径(ΔAUROC +0.013)
  3. 扩散距离 :基于随机游走的流形距离(ΔAUROC +0.017)
  4. 三角缺陷谱 :多尺度局部曲率特征(ΔAUROC +0.026)

生物学启示 :调控基因对不仅是在embedding空间中"接近",而是通过流形上的特定路径相连。扩散距离的优势表明,调控邻近性更像"流形上的可达性"而非单纯的直线距离。

3.4 最稳健发现:调控模体-社区对齐

将几何社区结构(Louvain社区检测)与TRRUST的调控方向标注结合,我们得到最稳健的信号:

  • 签名模体-社区硬化(H123):ΔAUROC +0.094
  • 在所有22个测试行中均显著
  • 通过最严格的零模型控制

关键发现 :模型不仅将调控因子与靶基因放在相近位置,还根据调控方向(激活/抑制)将它们安排在社区内的特定几何关系中。例如:

  • 激活靶标可能位于TF的"下游"区域
  • 抑制靶标可能位于特定"侧翼"位置

这种几何-功能对应关系在免疫组织中尤其明显,可能是由于免疫调控网络具有更清晰的模块化结构。

4. 实践启示与注意事项

4.1 模型选择建议

  1. 跨模型一致性高的特征

    • 基因邻域关系
    • 拓扑环结构
    • 社区划分模式
    • 这些可安全用于跨模型比较
  2. 模型间差异大的特征

    • 单个基因的绝对坐标
    • 特定embedding维度解释
    • 需谨慎进行跨模型直接转换

4.2 组织类型影响

  • 免疫组织 :信号最稳健,建议优先分析
  • 肺组织 :部分信号在严格控制下变脆弱
  • 外部肺数据 :信号最不稳定
  • 可能原因
    • 免疫调控网络更模块化
    • 免疫相关基因注释更完善
    • 肺组织调控可能更连续而非离散

4.3 特征工程策略

  1. 多特征组合 :稳定性选择法整合:

    • 测地距离
    • 三角缺陷谱
    • 社区共成员关系
    • 有向拓扑特征
    • 达到ΔAUROC +0.074
  2. 避免过度整合 :添加过多生物先验知识会:

    • 增加原始效应量(ΔAUROC可达+0.134)
    • 但降低零模型稳健性(最终0/9分组通过)

4.4 常见陷阱与解决方案

  1. 假阳性信号

    • 现象:某些特征在简单零模型下显著,但在严格控制下消失
    • 案例:桥接曲率特征(ΔAUROC +0.079→0/6通过)
    • 解决方案:始终采用多层次零模型验证
  2. 共表达混淆

    • 现象:部分几何信号实际反映基因共表达
    • 检测方法:共表达匹配零模型
    • 解决方案:使用三角缺陷谱等独立于共表达的特征
  3. 跨模型基因对应

    • 现象:无法可靠匹配不同模型的基因坐标
    • 解决方案:比较几何属性(距离、社区)而非绝对位置

5. 技术实现细节

5.1 持续同调分析流程

  1. 输入:某层所有基因的embedding矩阵(G×d)
  2. 预处理:
    • 随机子采样350个基因
    • PCA降至20维(缓解维度灾难)
  3. 构建过滤复合体:
    • 从最小距离开始逐步增加阈值ε
    • 在每个ε值构建单纯复形
  4. 计算H1持续同调:
    • 识别每个ε范围内持续存在的环
    • 计算总持续期(所有环的birth-death区间和)
  5. 显著性检验:
    • 与20次特征洗牌零模型比较
    • 计算z-score和p值

5.2 签名模体-社区特征构建

  1. 基础特征:
    • 对基因对(u,v):
    • 检查是否共享调控因子TF
    • 确认TF→u和TF→v的调控方向
    • 计算u,v在社区结构中的相对位置
  2. 衍生特征:
    • 同社区同方向强度
    • 跨社区反方向模式
    • 社区边界过渡特征
  3. 零模型控制:
    • TF身份保持的标签置换
    • 模体诱饵洗牌(匹配TF/靶标度)

5.3 稳定性选择实现

  1. 特征池:
    • 测地距离
    • 扩散距离
    • 三角缺陷谱(8,12,16邻域)
    • 社区共成员指标
    • 有向拓扑特征
    • 双过滤循环秩
  2. 选择过程:
    • 100次bootstrap子采样
    • 每次用随机LASSO选择特征
    • 保留选择频率>80%的特征
  3. 最终模型:
    • 使用稳定选择的特征子集
    • 交叉验证逻辑回归
    • 计算ΔAUROC相对于基线

6. 前沿方向与开放问题

6.1 免疫特异性的深层原因

免疫组织表现出更强的几何信号,可能源于:

  1. 网络结构差异

    • 免疫:离散的细胞程序(T细胞、B细胞、髓系等)
    • 肺组织:更连续的调控渐变
  2. 注释完整性

    • 免疫调控关系研究更充分
    • 肺组织许多调控关系尚未表征
  3. 生物学本质

    • 免疫系统需要快速状态切换
    • 可能进化出更模块化的调控架构

6.2 几何结构的层间演化

跨Transformer层的分析显示:

  1. 拓扑信号

    • 早期和中间层最强
    • 顶层略有下降但仍显著
  2. 距离度量效能

    • 测地距离优势集中在中间层
    • 可能与层级特征处理相关
  3. 潜在解释

    • 早期层:捕捉局部基因相互作用
    • 中间层:整合通路级模式
    • 深层:形成全局协调表征

6.3 从几何到可操作的生物学

如何利用这些几何发现指导实验研究:

  1. 候选基因优先排序

    • 基于embedding社区结构
    • 关注拓扑环中的未知基因
    • 例如:预测新的反馈调控元件
  2. 扰动实验设计

    • 根据几何距离选择靶点组合
    • 近距基因:可能功能冗余
    • 特定流形路径上的基因:可能构成通路
  3. 疾病机制研究

    • 比较健康/疾病样本的embedding几何
    • 识别拓扑结构异常的基因模块
    • 例如:自身免疫病中的免疫调控环畸变

7. 阴性结果的宝贵价值

本研究的独特之处在于系统记录了141个假设中的63个阴性结果,它们同样具有重要价值:

  1. 方法学警示

    • 重写零模型下拓扑信号消失
    • 显示某些结构依赖特定图连接性
  2. 理论边界

    • 基因级别跨模型对应不可行
    • 确立模型一致性仅限于宏观几何
  3. 实践指导

    • 避免在脆弱信号上构建应用
    • 集中关注免疫等稳健领域

这些阴性结果就像地图上的"此处无路"标记,防止后续研究者走入死胡同。在生物医学AI领域,明确知道"模型不能做什么"与知道"它能做什么"同样重要。

Logo

中国智能体开发者社区,聚焦智能体与大模型开发,提供前沿资讯、实用工具链、开源项目及行业案例。通过技术沙龙、开发者大赛等活动,促进经验交流与协作,助力开发者快速构建创新智能应用。

更多推荐