通过多模态数据融合策略改善scHiC 的数据稀疏问题
✅ 问题背景
scHi-C 最大的问题是:
- 每个单细胞中观测到的染色质接触对非常稀疏(常仅几千对),
- 无法完整重构 TAD、Loop 等三维结构。
而 其他单细胞组学数据(如 scRNA-seq、scATAC-seq) 则通常:
- 数据密度高
- 信噪比好
- 功能关联明确
因此,利用这些模态中的结构相关性、细胞相似性、功能状态信息,可以帮助对 scHi-C 进行结构补全、细胞聚类、状态推断等操作,从而间接缓解其稀疏问题。
✅ 原理解析:多模态联合缓解稀疏的几种方式
1. 跨模态引导的细胞聚类 → 分组聚合
📌 核心思想:
- scRNA-seq 或 scATAC-seq 可以明确揭示细胞的亚群体、发育阶段、激活状态
- 根据这些模态将 scHi-C 中的细胞进行 聚类或分组
- 然后在每个分组内做 多细胞聚合(Aggregation)
→ 提高结构信息密度,补足单细胞缺失
✅ 举例:
- 在胚胎发育研究中,用 scRNA-seq 区分原始胚层、神经前体、间充质细胞
→ 用来分组对应的 scHi-C 数据,再分别聚合 → 获得不同谱系的三维图谱
2. 联合嵌入(Joint Embedding)或图学习
📌 核心思想:
- 将不同模态(scHi-C, scRNA)表示为图或矩阵
- 通过 共享的低维空间(joint latent space) 进行建模或学习
- 在此空间中,scHi-C 的结构信息可由 scRNA 的密集特征来“补全”或“纠正”
✅ 代表方法:
- DC3(Zhou et al. Nature 2019):联合 scHi-C 和 scRNA 构建多图嵌入,推断潜在状态
- scMOG:图卷积模型,融合多个模态提升结构推断精度
- totalVI, MOFA+:变分推理模型融合 sc 模态
3. 基于功能信号的结构增强(Function-guided enhancement)
📌 核心思想:
- 已知染色质结构变化常与 基因表达激活、enhancer 启动子互作、染色质开放性变化 等相关
- 将 scATAC-seq 提供的开放染色区域信息 or scRNA-seq 提供的活跃基因信息,与 scHi-C 稀疏图谱对齐
→ 用于判断某些接触是否真实存在、是否值得补全
✅ 应用案例:
- scHi-C 中存在弱信号联系的两个区域
- 若这两个区域在 scATAC 中高度开放,且一个区域对应一个高表达基因启动子
→ 可据此 提升该接触对的补全优先级,增强可信度
✅ 总结一下:多模态融合如何缓解 scHi-C 稀疏性?
| 路径 | 作用机制 | 目标 |
|---|---|---|
| 1. 跨模态聚类引导聚合 | 用其他模态分群,聚合相似细胞的 scHi-C 数据 | 增强接触对数量 |
| 2. 联合低维嵌入 | 建立共享特征空间,弥合信息稀疏差距 | 推断潜在结构关系 |
| 3. 功能特征辅助结构增强 | 利用活跃表达/开放性推断接触可信度 |

浙公网安备 33010602011771号