🧠 空间转录组中的线性降维与细胞类型推断:算法总结与比较分析
🔍 一、核心任务拆解
✅ 空间转录组中的两个关键分析目标:
- 线性降维:压缩 spot 表达数据 → 探索数据结构或构建空间因子
- 细胞类型推断:从混合 spot 表达中推断出每种细胞类型的空间分布
这两类任务各自有不同的算法适配方案,也存在交集与转换空间(如 NMF 可兼顾降维与部分细胞丰度估计)。
📐 二、线性降维方法比较
方法 |
核心原理 |
是否非负 |
可解释性 |
是否稀疏 |
空间组学适配性 |
限制 |
PCA |
方差最大,线性正交变换 |
❌ |
中 |
❌ |
初步探索 |
不保非负,主成分含义混杂 |
NMF |
非负矩阵分解 |
✅ |
✅ 高 |
✅ |
✅ 主力方法 |
参数调优敏感 |
ICA |
独立成分分解 |
❌ |
✅ |
✅ |
早期少量应用 |
噪音敏感,难收敛 |
FA(因子分析) |
基于协方差建模的隐因子提取 |
❌ |
中 |
❌ |
学术探索为主 |
解释能力弱于 NMF |
✅ 结论:空间组学/邻域组成分析中,NMF 是最推荐的线性降维方法,因其:
- 输出稀疏、非负的空间“成分”
- 可生物学解释,如 CAF 周围富集 T/B 的成分代表“免疫型邻域”
🧬 三、细胞类型空间推断方法主流算法
方法 |
是否监督 |
是否依赖 scRNA 参考 |
是否考虑空间结构 |
是否提供丰度矩阵 |
优势 |
典型工具 |
NMF |
❌ 无监督 |
❌ |
❌ |
部分(后注释) |
高可解释性、成分学习强 |
NMF R/Python |
Cell2location |
✅ 有监督 |
✅ |
✅ |
✅ |
拟合精度高、Bayesian建模 |
cell2location + scVI |
Stereoscope |
✅ 有监督 |
✅ |
❌ |
✅ |
Poisson建模,速度快 |
stereoscope |
RCTD |
✅ 有监督 |
✅ |
❌ |
✅ |
二分类拟合,适合清晰结构组织 |
RCTD R package |
Tangram |
✅ 有监督 |
✅ |
✅ |
❌ (权重回归) |
支持空间图谱映射 |
Tangram PyTorch |
SPOTlight |
✅ 半监督 |
✅ (scRNA参考 + marker) |
❌ |
✅ |
NMF+Marker权重指导 |
SPOTlight R package |
✅ 结论:
- Cell2location 是当前主流空间细胞类型映射方法,因其结合了:
- Bayesian非负模型
- scVI 跨批次归一化
- 空间结构先验
- 可输出每个 spot 中所有参考细胞类型的精确丰度估计
🔄 四、Cell2location 与 NMF:深度比较
✅ 共同点(你已总结得很好):
- 均以spot 为单位进行分解建模
- 都可视为:混合表达 = 组成 × 权重
- 都要求非负性,结果更具生物学可解释性
❗️关键差异补充:
维度 |
NMF |
Cell2location |
是否监督 |
❌ 无监督 |
✅ 有监督(参考数据驱动) |
输出是否为真实细胞类型 |
❌(需后注释) |
✅(直接为细胞类型) |
数学框架 |
$V ≈ WH$ 线性代数 |
Gamma + NegativeBinomial + 回归先验(Bayes) |
能否区分近似亚型 |
❌ 成分可能混合 |
✅ 可区分 Treg vs CD8+ 等亚型 |
是否适合跨样本统一建模 |
❌(不考虑 batch) |
✅(通过 scVI 校正,多个切片联合建模) |
🔧 五、建议组合与分析策略
目的 |
推荐方案 |
初步探索空间异质性 |
✅ NMF(快速学习空间成分) |
推断真实细胞类型空间分布 |
✅ Cell2location(基于参考的定量估计) |
校正跨样本批次差异 |
✅ scVI + Cell2location |
解释 NMF 得到的成分是否为已知细胞类型 |
✅ 比较 NMF 的 W 与 Cell2location 的丰度矩阵 |
📌 建议策略:先用 NMF 提取空间隐结构 → 再用 Cell2location 进行细胞类型定位,若 NMF 中存在无法注释成分,可推测为 未知细胞状态/混合亚型。
🧪 六、补充建议:方法整合图
空间表达矩阵 V
↓
NMF (无监督)
↓ ↓
成分W H因子注释
↓
粗略空间结构 + 高解释性
----------------------------------------
scRNA + 空间表达
↓
Cell2location (有监督)
↓
每个spot的细胞丰度估计(真实 cell types)
✅ 七、最终总结对照表
维度 |
PCA |
NMF |
Cell2location |
是否降维 |
✅ |
✅ |
❌(解构) |
是否监督 |
❌ |
❌ |
✅ |
非负性 |
❌ |
✅ |
✅ |
可解释性 |
❌ 一般 |
✅ 高 |
✅ 高 |
输入类型 |
任意表达矩阵 |
非负矩阵(如比例/表达) |
空间表达 + scRNA参考 |
是否输出细胞类型 |
❌(需后注释) |
❌(成分 → 需人工注释) |
✅(直接细胞类型) |
跨样本能力 |
❌ 无 |
❌ |
✅(scVI统一参考空间) |