空间转录组分析中常用的主流底层算法或建模方法
目前空间转录组分析中常用的主流底层算法或建模方法出发,涵盖了 PCA、NMF、Cell2location 以外,还包括:
- scVI(单细胞变分自编码器)
- SpaGCN(空间图卷积网络)
- BayesSpace(贝叶斯空间聚类)
- Tangram(scRNA → 空间数据映射)
- stereoscope(贝叶斯细胞比例分解)
你可以用这个表格来进行方法比较、选型,或插入到你的报告中。
📊 空间转录组分析常用算法比较表(底层建模维度)
维度 | PCA | NMF | Cell2location | scVI | SpaGCN | BayesSpace | Tangram | stereoscope |
---|---|---|---|---|---|---|---|---|
是否降维 | ✅ | ✅ | ❌(解构) | ✅ | ✅(图嵌入) | ✅ | ❌ | ❌ |
是否监督 | ❌ | ❌ | ✅ | ✅(有/无监督均可) | ✅(弱监督) | ❌ | ✅ | ✅ |
非负性 | ❌ | ✅ | ✅ | ❌ | ❌ | ❌ | ✅(比例) | ✅ |
可解释性 | ❌ 一般 | ✅ 高 | ✅ 高 | ⚠️ 低(需解码解释) | ✅(空间可视化) | ✅ 高 | ✅(明确空间映射) | ✅(比例明确) |
输入类型 | 任意表达矩阵 | 非负表达矩阵 | 空间表达 + scRNA 参考 | scRNA表达(可配空间) | 空间表达 + 坐标 | 空间表达 + 空间信息 | 空间表达 + scRNA | 空间表达 + scRNA |
是否输出细胞类型 | ❌(需后注释) | ❌(需人工注释) | ✅(细胞类型 + 比例) | ✅(潜在变量 + 聚类) | ✅(聚类可视 +分群) | ✅(空间聚类) | ✅(细胞映射) | ✅(细胞类型比例) |
跨样本能力 | ❌ | ❌ | ✅(统一 scVI 空间) | ✅ | ⚠️ 有限 | ⚠️ 有限 | ✅(跨组织投影) | ✅ |
空间信息整合 | ❌ | ❌ | ✅(后验映射) | ❌(需手动集成) | ✅(内嵌图卷积) | ✅(MCMC + 空间先验) | ✅(坐标对齐) | ❌ |
处理稀疏数据能力 | ⚠️ 弱 | ⚠️ 弱 | ✅ | ✅(强变分建模) | ✅ | ✅ | ✅(基于映射插值) | ✅ |
常见用途 | 预处理 / 可视化 | 成分分解 / 热图 | 细胞类型定位 | scRNA维度缩减/整合 | 空间聚类/图结构分析 | 空间聚类(如ST数据) | scRNA → 空间配准 | 细胞类型比例估计 |
🧠 各方法简要补充说明
- PCA:线性降维方法,解释性差但速度快,常用于数据预处理。
- NMF:适合非负表达数据,如 proportion matrix(如 CAF 分型比例等),有良好可解释性。
- Cell2location:基于贝叶斯建模,从 scRNA 参考中估计空间点的细胞类型组成,广泛应用于 CAF 空间映射。
- scVI:使用变分自编码器建模单细胞数据,可用于整合、去批次、分类等任务。
- SpaGCN:基于空间图结构的 GCN 方法,能够同时考虑空间邻近性和表达特征,适合空间聚类。
- BayesSpace:专为 Visium 等平台设计的贝叶斯空间聚类模型,考虑空间自相关。
- Tangram:将 scRNA 数据映射到空间位置,实现细胞类型的空间投影,高解释性。
- stereoscope:基于贝叶斯解混合模型,估计空间点的细胞类型比例,用于 CAF 混合组分析很有用。
太棒了!我会在你提供的内容上,完整扩展小结部分,让它更系统化、实用化,并且结合你之前表格扩展的内容。
🧪 常用算法特点小结
类型 | 代表算法 | 适合任务 | 关键优势与备注 |
---|---|---|---|
矩阵分解类 | PCA / NMF | - 探索性降维 - 组分提取 - 主题分析 |
- 快速高效,适合初步可视化 - NMF 非负,适合解读组分贡献 |
贝叶斯解卷积 | Cell2location / Stereoscope / RCTD | - 多细胞类型空间映射 - 细胞比例估计 |
- 结合单细胞参考,适用于复杂混合细胞场景 - RCTD 在临床免疫浸润也常见 |
空间映射优化类 | Tangram | - 单细胞 → 空间映射(cell-level resolution) | - 细胞分辨率高,适合组织微环境精细化研究 |
图结构建模/聚类 | SpaGCN / BayesSpace | - 空间区域聚类 - 组织结构分割 |
- 充分利用空间邻近性,发现潜在区域亚群 - SpaGCN 支持 GCN 可视化 |
深度生成模型 | scVI / DestVI | - 单细胞数据批次矫正 - 空间整合 - 亚型解析 |
- 高维变分建模,整合多个样本或批次 |
低氧/免疫适配分析 | hypoxic CAF / infCAF 特征结合算法 | - CAF 特异空间/免疫耐受环境分析 | - 结合基因集,通常配合 NMF / 贝叶斯解卷积 |
🔔 如果你要选算法,建议从以下出发:
✅ 想得到每个 spot 的多细胞组成比例(免疫浸润 / CAF 混合)
→ Cell2location / RCTD / Stereoscope
→ 适合问题:CAF 异质性、免疫微环境成分分析,尤其适合 CAF 各亚型比例解混
✅ 想精确找出区域结构 / 空间亚群
→ SpaGCN / BayesSpace
→ 适合问题:CAF 空间分布格局、低氧区域/血管富集区
✅ 想把 scRNA 精准映射到空间(单细胞级分辨率)
→ Tangram
→ 适合问题:CAF 在组织中具体分布,精细空间“定位”
✅ 只是想看数据主成分,初步降维或做热图聚类
→ PCA / NMF
→ 适合问题:CAF 大致分布模式,数据可视化
✅ 需要多样本整合、复杂批次校正
→ scVI / DestVI
→ 适合问题:多病人样本对比,批次效应显著的样本合并
🎯 总结思路
- 你可先用PCA / NMF做全局探索(确定数据质量、变异来源)。
- 若CAF 多亚型混合度高 → Cell2location / Stereoscope 能给出最直接的比例。
- 若组织结构复杂、想要精细化区域映射 → Tangram / SpaGCN 是高级阶段必用工具。
- scVI / DestVI 适合跨病人 / 批次多样本全局整合。