scRNA-seq 数据如何改善 scHiC 数据的稀疏特性
好的,我先从基础概念、构建方式、在 scRNA-seq 中的作用,再到如何与 scHi-C 结合的角度,详细解释 共表达网络(Gene Co-expression Network)。
1. 什么是共表达网络?
共表达网络(Gene Co-expression Network)是指:
根据基因在多个样本(这里是单细胞)中的表达模式相似性,把表达模式高度相关的基因连接起来,构成一个以基因为节点、相关性为边的网络。
换句话说,如果两个基因在一批细胞中总是同时高表达或低表达,就认为它们在功能或调控上存在联系。
2. 节点和边是如何定义的?
-
节点 (nodes):
每个节点代表一个基因(或基因组区域)。 -
边 (edges):
两个基因在单细胞数据中表达量高度相关时连边,边的权重通常用相关系数或其他相似性度量表示:- 皮尔逊相关系数 (Pearson Correlation)
- 斯皮尔曼相关系数 (Spearman Correlation)
- MI (互信息,Mutual Information)
通常还会设置阈值,只保留高相关的基因对,得到一个稀疏但有生物学意义的网络。
3. 为什么要构建共表达网络?
-
发现 功能相关基因模块
- 例如,参与同一通路或同一细胞功能的基因往往共表达
- 通过网络聚类可以找出这些模块
-
研究 细胞状态特异的调控网络
- 不同细胞群体中可能有不同的共表达模块
- 用来区分细胞亚型、状态、发育轨迹
-
与其他组学(如 scHi-C)结合
- 把共表达模块与染色质空间结构(如 TAD 或环路)对比,研究三维结构与功能的关系
4. 如何与 scHi-C 结合?
scHi-C 提供的是 基因组空间信息(哪些 DNA 区域靠得近),而共表达网络提供的是 功能关系(哪些基因活性同步)。结合方式有两种:
方式一:基因定位匹配
- 把共表达网络中的基因映射到它们所在的基因组 bin(染色体区段)
- 再把这些 bin 与 scHi-C 的接触矩阵对齐
- 分析:是否共表达的基因更倾向于空间上接近?
方式二:联合建模
- 把 scHi-C(基因组区段为节点)和共表达网络(基因为节点)合并到一个图
- 通过 多层图神经网络(GNN)或联合嵌入,让稀疏的空间接触信息从共表达模块获得补全和推断支持
5. 一个简单的示意例子
假设在 scRNA 数据里:
- 基因 A 和 B 的表达量在 1000 个细胞中高度正相关
- 我们在共表达网络中连一条 A–B 的边
再看 scHi-C:
- 基因 A 和 B 对应的染色质片段在 Hi-C 数据里接触次数稀少
- 但通过共表达信息,可以预测 A 和 B 很可能位于同一功能域或 TAD 内,指导补全稀疏接触矩阵。
一句话总结:
共表达网络 是一种基于表达相关性构建的基因网络,能揭示功能模块。
在 scHi-C 的稀疏性补全 中,它帮助识别功能相关的基因组区域,为空间结构补全和功能解释提供参考。

浙公网安备 33010602011771号