scRNA-seq 数据如何改善 scHiC 数据的稀疏特性

好的,我先从基础概念、构建方式、在 scRNA-seq 中的作用,再到如何与 scHi-C 结合的角度,详细解释 共表达网络(Gene Co-expression Network)


1. 什么是共表达网络?

共表达网络(Gene Co-expression Network)是指:

根据基因在多个样本(这里是单细胞)中的表达模式相似性,把表达模式高度相关的基因连接起来,构成一个以基因为节点、相关性为边的网络。

换句话说,如果两个基因在一批细胞中总是同时高表达或低表达,就认为它们在功能或调控上存在联系


2. 节点和边是如何定义的?

  • 节点 (nodes)
    每个节点代表一个基因(或基因组区域)。

  • 边 (edges)
    两个基因在单细胞数据中表达量高度相关时连边,边的权重通常用相关系数或其他相似性度量表示:

    • 皮尔逊相关系数 (Pearson Correlation)
    • 斯皮尔曼相关系数 (Spearman Correlation)
    • MI (互信息,Mutual Information)

通常还会设置阈值,只保留高相关的基因对,得到一个稀疏但有生物学意义的网络。


3. 为什么要构建共表达网络?

  • 发现 功能相关基因模块

    • 例如,参与同一通路或同一细胞功能的基因往往共表达
    • 通过网络聚类可以找出这些模块
  • 研究 细胞状态特异的调控网络

    • 不同细胞群体中可能有不同的共表达模块
    • 用来区分细胞亚型、状态、发育轨迹
  • 与其他组学(如 scHi-C)结合

    • 把共表达模块与染色质空间结构(如 TAD 或环路)对比,研究三维结构与功能的关系

4. 如何与 scHi-C 结合?

scHi-C 提供的是 基因组空间信息(哪些 DNA 区域靠得近),而共表达网络提供的是 功能关系(哪些基因活性同步)。结合方式有两种:

方式一:基因定位匹配

  • 把共表达网络中的基因映射到它们所在的基因组 bin(染色体区段)
  • 再把这些 bin 与 scHi-C 的接触矩阵对齐
  • 分析:是否共表达的基因更倾向于空间上接近?

方式二:联合建模

  • 把 scHi-C(基因组区段为节点)和共表达网络(基因为节点)合并到一个图
  • 通过 多层图神经网络(GNN)或联合嵌入,让稀疏的空间接触信息从共表达模块获得补全和推断支持

5. 一个简单的示意例子

假设在 scRNA 数据里:

  • 基因 A 和 B 的表达量在 1000 个细胞中高度正相关
  • 我们在共表达网络中连一条 A–B 的边

再看 scHi-C:

  • 基因 A 和 B 对应的染色质片段在 Hi-C 数据里接触次数稀少
  • 但通过共表达信息,可以预测 A 和 B 很可能位于同一功能域或 TAD 内,指导补全稀疏接触矩阵。

一句话总结:

共表达网络 是一种基于表达相关性构建的基因网络,能揭示功能模块。
scHi-C 的稀疏性补全 中,它帮助识别功能相关的基因组区域,为空间结构补全和功能解释提供参考。


posted @ 2025-07-24 20:49  wuhaoliu  阅读(19)  评论(0)    收藏  举报