代码地址:https://github.com/pinellolab/simba


接上一篇:【论文阅读】SIMBA: single-cell embedding along with features(1)-CSDN博客

【论文阅读】SIMBA: single-cell embedding along with features(2)-CSDN博客

摘要

当前大多数单细胞分析流程仅限于细胞嵌入,并且严重依赖聚类方法,而缺乏显式建模不同特征类型之间相互作用的能力。此外,这些方法往往针对特定任务进行定制,因为不同的单细胞问题通常以不同方式被提出。

为了解决这些不足,我们提出了 SIMBA ——一种图嵌入方法,它能够将单细胞及其定义特征(如基因、染色质可及区域和 DNA 序列)共同嵌入到一个共享的潜在空间中。通过利用细胞与特征的协同嵌入,SIMBA 可以支持研究细胞异质性、无聚类的标记物发现、基因调控推断、批次效应去除以及多组学数据整合。

我们展示了 SIMBA 如何提供一个统一的框架,使得多样化的单细胞问题能够在一致的方式下被表述,从而简化新分析方法的开发和向新单细胞模态的扩展。SIMBA 已实现为一个全面的 Python 库(https://simba-bio.readthedocs.io)。

结论

单细胞批次校正(Batch Correction)中的 SIMBA 方法

随着单细胞数据采集在多机构间的快速扩展,对能够处理技术协变量的分析方法需求日益增长。批次校正(Batch correction)对于去除技术变异、同时保留生物学信号至关重要。然而,现有方法往往依赖聚类,而当需要结合各批次未校正空间中识别的基因时,标记基因(marker genes)的检测容易产生不一致性。相比之下,SIMBA 通过同时生成细胞与基因的嵌入表示,使得批次效应的消除与标记基因检测能够在一个无需聚类的综合空间中完成

方法原理

SIMBA 通过将多个 scRNA-seq 数据集编码到单一图结构中实现批次校正(图 5a)。跨批次的细胞节点与共享的基因节点相连,连接边的权重基于实验测得的基因表达值构建,类似于单批次的 scRNA-seq 图构建过程。进一步地,SIMBA 还通过计算推断的边来增强批次校正,这些边连接跨数据集中相似的细胞节点,使用的是一种基于截断随机奇异值分解(SVD)的算法。基于所得图结构,SIMBA 生成了经批次校正的细胞与基因嵌入表示,从而可以在共享潜在空间中对单个细胞级别进行生物学查询,实现标记基因检测(方法部分)。最终结果既可以可视化细胞嵌入(图 5b),也可以可视化细胞与基因的整体嵌入(图 5c),并通过 UMAP 进行降维展示。

应用与效果

我们将 SIMBA 应用于两个多批次的 scRNA-seq 数据集:

  1. 小鼠图谱数据集(mouse atlas dataset):由两个批次组成,细胞类型相同,但来源于不同测序平台。

  2. 人类胰腺数据集(human pancreas dataset):包含五个批次,来自五个不同来源,采用四种测序技术,不同样本之间并非共享所有细胞类型。

在两个数据集中,SIMBA 成功校正了批次效应:在注释好的细胞类型簇中,各批次细胞得以均匀混合,同时保持不同细胞类型簇之间的区分。这表明 SIMBA 能够在消除技术干扰的同时,保留真实的生物学信号(图 5b,补充图 19b)。值得注意的是,小鼠图谱数据覆盖 9 个器官系统,因此同一细胞类型标签内部预期会存在一定异质性;而胰腺数据来自单一器官,SIMBA 将其充分分离为转录学上不同且均一的细胞簇(图 5b)。

标记基因检测

SIMBA 不仅在图嵌入过程中消除了批次效应,还能够同时识别细胞类型特异性的标记基因(图 5c)。

  • 在已知细胞标签的情况下,可通过在批次校正后的 SIMBA 空间内,查询细胞邻近基因来识别标记基因。

  • 在未知细胞标签的情况下,则可利用 SIMBA 指标(SIMBA metrics) 进行计算识别。

SIMBA 能够将已知的细胞类型特异性标记基因嵌入到正确的细胞类型邻近区域,而非标记基因则未靠近特定细胞类型(补充图 17 与 18)。这些检测到的标记基因与各数据集的基于聚类的差异表达(DE)分析结果高度一致。例如:

  • 在小鼠图谱数据集中:Cdh5、Tie1、Myct1 为内皮细胞标记;C1qc、Fcgr1 为巨噬细胞标记;S100a8、Trem3 为中性粒细胞标记。

  • 在人类胰腺数据集中:KIF12 为 α 细胞标记;KRT19 为导管细胞标记。
    这些基因均在相应的细胞类型中表现出特异性表达(补充图 17 与 18)。

方法比较与评价

尽管 SIMBA 是一种通用的图嵌入方法,我们仍将其与专门为批次校正设计的方法进行了比较。我们选择了三种在近期基准研究中表现优异的方法:Seurat3、LIGER、Harmony。结果显示,SIMBA 在批次校正任务中的表现无论在定性还是定量评估上都具备可比性,同时通过提供额外的基因嵌入,还能实现标记基因的检测(补充说明 7,补充图 19)。


📌 总结一句话:
SIMBA 在单细胞批次校正中,不仅能有效去除技术变异并保留生物学信号,还能在无需聚类的统一潜在空间中同步实现标记基因检测,兼具灵活性与准确性。

使用 SIMBA 的单细胞多组学整合

随着单细胞检测技术的发展,研究者如今可以同时测量广泛的细胞特征(modalities),这就需要方法能够充分利用这些特征,并整合多组学数据,以全面解析细胞状态。当前的多组学整合方法大多遵循类似于批次校正的工作流程。与现有方法不同,SIMBA 可以在其一体化空间中直接探索多类型特征,并在无需聚类的情况下检测到特异性标记特征,从而实现多组学数据整合与无聚类的标记特征检测,特别适用于 scRNA-seq 与 scATAC-seq 数据集。

SIMBA 首先分别为 scRNA-seq 与 scATAC-seq 数据构建独立的图(graph),并基于共享基因表达模块通过计算推断的边(edges)将它们连接起来,然后将包含细胞、基因与 ATAC 峰值的图嵌入到低维空间中,以表示多模态整合后的统一空间(见 Fig. 6a 与 Methods)。这样便能够在单细胞水平上,通过对 SIMBA 空间中的细胞进行生物学查询,检测出多类型的特征标记。研究者可以利用 UMAP 对这些多组学实体的嵌入结果进行部分或整体的可视化。

为便于评估数据整合的性能,我们通过手动将双组学数据集拆分为两种单模态数据集(即 scRNA-seq 和 scATAC-seq),从而构建了带有真实标签的数据集,其中我们已知跨模态的细胞真实对应关系。随后,我们将 SIMBA 应用于两个案例的整合分析:一是 SHARE-seq 小鼠皮肤数据集,二是 10x Genomics multiome 人 PBMCs 数据集(见补充表 2)。

首先,我们对 SIMBA 的细胞嵌入进行了可视化,结果表明 SIMBA 在均匀融合两种模态的同时,能够保留细胞的异质性(见 Fig. 6b 与补充图 21b)。接着,我们基于 SIMBA 指标对细胞、基因和高排名 ATAC 峰的嵌入进行可视化,发现 SIMBA 在学习细胞异质性的同时,还能在单细胞分辨率下同步识别标记基因和标记峰(见 Fig. 6c 与补充图 21)。在共同嵌入空间中,我们观察到细胞的邻近基因(UMAP 图中高亮显示)在对应细胞类型中均呈现特异性表达(补充图 21a–e 与 22a–c,e)。例如,在 SHARE-seq 小鼠皮肤数据集中,Foxq1 和 Shh 分别定位于发髓(medulla)和 TAC-2;在 10x PBMCs 数据集中,单核细胞的标记基因 PAPSS2 与 KCNMA1 在嵌入空间中彼此相邻。类似地,我们还观察到细胞邻近的 ATAC 峰展现出明确的细胞类型特异性可及性模式,而且这一模式对不同细胞类型的簇大小具有鲁棒性(补充图 21f 与 22d)。

SIMBA 所产生的细胞与特征的联合嵌入与现有的多组学整合方法在本质上存在差异。然而,我们仍将 SIMBA 的细胞嵌入与当前两种广泛应用的单细胞多组学整合方法 Seurat3 与 LIGER 进行了对比,重点考察它们在整合单细胞多模态数据的同时保持细胞异质性的能力(见补充说明 8)。结果表明,SIMBA 在 小鼠皮肤 SHARE-seq 数据集 与 10x PBMCs multiome 数据集 上均取得了整体最佳表现。

讨论(Discussion)

多组学检测技术的快速发展已经超越了相应计算框架的进展,而后者对于从如此丰富的数据中获得整合性见解是必需的。这种差距凸显了对新方法的需求——这些方法不仅要突破以往的限制,还要能够轻松扩展到未来的细胞测量。SIMBA 正好满足了这一需求,它作为一种全面且可扩展的方法,用于探索细胞异质性与调控机制。

SIMBA 将细胞和测量到的特征建模为图中的节点,并采用可扩展的图嵌入过程,将细胞与特征节点嵌入到一个共享的潜在空间中。我们证明了,单细胞数据的直接图表示不仅能捕捉细胞之间及实验量化特征(如基因表达或染色质可及性)之间的关系,还能揭示特征之间的层级关系。SIMBA 的共嵌入空间能够同时学习细胞异质性与细胞类型特异性的多模态特征,并补充了现有的基因调控网络分析。与依赖细胞聚类进行特征发现的方法不同,SIMBA 避免了因聚类而导致的伪发现或漏检结果。

SIMBA 在单细胞多种模态和任务中进行了广泛的基准测试,获得的性能指标优于或可与当前最先进的方法相媲美。这些结果表明,SIMBA 的基于图的框架具有广泛的适用性,从而避免了结合多种分析工具的繁琐需求。

神经网络嵌入在生物数据分析中展现出巨大潜力。此前,嵌入模型已被用于基因功能注释、转录因子结合偏好的建模,以及更近期的单细胞 RNA-seq 分析。

尽管具有这些有前景的能力,SIMBA 仍面临潜在局限和改进空间。例如,整合样本层级的数据(如时间点和扰动信息)可能具有挑战性,因为这需要额外的复杂层次来准确表示这些维度。空间数据也可能增强 SIMBA 分析复杂数据集(如空间转录组学)的能力,通过在图中引入空间邻近性。此外,该框架还可以扩展到分析三维染色质构象,通过编码 DNA 片段相互作用来表示基因与调控区之间的连接。虽然将 SIMBA 适配于各种实验设计是可行的,但其嵌入结果的解释可能会随输入图和训练过程的不同而变化,这需要领域专家的参与。

总体而言,SIMBA 具有多功能性,只要特征可以被编码到连通图中,就能加以处理。我们相信,SIMBA 将简化针对新单细胞任务和测量方法的开发负担,同时为非聚类中心化分析方法的发展奠定基础。

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐