论文阅读-综述:Gene regulatory network inference
论文阅读-(综述文章)Gene regulatory network inference
一、答疑解惑
-
什么是转录因子?答:转录因子(Transcription Factor)是一种蛋白质,它在生物体内发挥着关键的作用,特别是在基因表达调控方面。转录因子并不是蛋白质的一种,而是一类蛋白质的总称,这些蛋白质可以结合到DNA上的特定区域,以影响或调控与该DNA区域相关的基因的转录(转录是指从DNA合成RNA的过程)。 -
CREs 是什么?答:CREs全称顺式调控元件“cis-regulatory elements” (Badia-i-Mompel 等, 2023, p. 3) -
什么是转录组数据(“Transcriptomics data” )?答:转录组数据(Transcriptomics data)是指通过高通量测序技术(如 RNA 测序)获得的特定细胞或组织在某一状态下几乎所有转录本的序列信息和表达信息。转录组学研究的主要对象包括 mRNA、非编码 RNA 等。 -
什么是染色质可及性数据(“Chromatin accessibility data” )?答:染色质可及性数据(Chromatin accessibility data)是指通过实验方法检测染色质中某些区域是否易于被核酸酶或其他酶解开,从而揭示基因组中哪些区域可以被转录因子或其他调控因子访问和影响基因表达。 -
scRAN-seq和scATAC-seq间的关系?答:scRAN-seq(单细胞 RNA 测序)和 scATAC-seq(单细胞染色质可及性测序)是两种单细胞基因组学研究技术,它们在揭示单细胞中基因表达和染色质结构方面具有重要作用。scRAN-seq 和 scATAC-seq 之间存在一定关系,主要体现在以下几个方面: -
-
相同点:两者都是单细胞基因组学技术,可以用于研究单个细胞中的基因表达和染色质结构。此外,它们都可以在单个细胞水平上检测基因表达和染色质可及性,为研究基因调控机制提供重要信息。
-
不同点:scRAN-seq 主要关注基因表达水平,通过检测 RNA 分子水平上的变化来反映基因在单细胞中的表达情况。而 scATAC-seq 则关注染色质可及性,揭示单细胞中染色质开放区域,进而分析基因组在不同生物过程中的调控机制。
-
互补性:scRAN-seq 和 scATAC-seq 在研究基因表达和染色质结构方面具有互补性。通过结合这两种技术,可以更全面地了解单细胞中的基因表达调控网络和染色质结构变化。例如,在研究肿瘤发生、发育过程和细胞分化的过程中,scRAN-seq 可以用于分析基因表达差异,而 scATAC-seq 可以揭示染色质调控机制的变化。
-
数据整合:在实际应用中,scRAN-seq 和 scATAC-seq 数据可以相互补充,通过整合这两种类型的数据,可以更准确地描绘单细胞中的基因表达调控网络和染色质结构。一些研究方法已经实现了 scRAN-seq 和 scATAC-seq 数据的整合,例如基于机器学习的算法,可以同时分析基因表达和染色质可及性数据,为研究单细胞中的基因调控机制提供更为全面的信息。
-
-
转录组数据和scRNA-seq数据是一回事吗?答:不是一回事,转录组数据一般是通过RNA测序得到,而scRNA-seq是一种针对单个细胞进行的 RNA 测序技术,与转录组测序(RNA-seq)有一定的相似性。scRNA-seq 技术可以获取单个细胞层面的基因表达信息,研究细胞间的异质性和细胞内部的基因调控网络。 -
染色质可及性数据和scATAC-seq数据是一回事吗?答:不一回事,scATAC-seq是一种基于单细胞水平的基因组学研究方法,通过测序单个细胞中的染色质开放区域,揭示单细胞内的染色质结构和基因调控差异。 -
使用scATAC-seq进行GRN推断的过程是什么?答:- 答:利用染色质可访问性数据的方法将 GRN 推断分为两个步骤:首先,将转录因子分配给基因调控元件(常称为峰的开染色质区域);其次,将这些调控元件分配给基因(图 2)。- 第一步,方法利用转录因子结合模motif 数据库和 motif 匹配算法在可访问的 CREs(框 1)上预测转录因子的结合。
- 第二步,方法将可访问的 CREs 链接到距离一定的基因组范围内的基因。这个距离切值是基于观察到的远端 CREs(如增强子或沉默子)通常与典型距离的启动子区域相互作用的 1。一些此类推断方法包括 ATAC2GRN(ref. 46)、LISA47 和 SPIDER48。这些方法假设如果一个基因的启动子区域是可访问的,那么该基因正在被转录,但情况可能并非总是如此。
二、 构建GRN的三种方式
因调控网络(GRN)推断的方法包括不同步骤,取决于为所研究样本或细胞生成的数据模式。
1. 利用转录组数据构建GRN:
首先,转录组数据进行预处理和归一化,以构建一个包含每个基因在不同样本或细胞中转录水平的表达矩阵。从其他来源获取已知转录因子(TF)基因列表,以区分具有调控能力的基因。然后,通过构建尝试从 TF 转录丰度预测观察到的基因表达的模型,推断 TF 和目标基因之间的相互作用,生成 TF-基因关联。最后,获得的相互作用汇总并表示为 GRN。
2. 利用染色质可及性数据构建GRN:
首先对染色质可及性数据进行预处理,并调用峰,以构建包含样本或细胞中顺式调控元件(CREs)开放性的二进制信息的峰可及性矩阵。根据基因组距离限制,将 CRE 与基因关联,并使用 TF 结合 motif 数据库和 motif 匹配算法预测 TF 结合 CRE。结合这些信息,获得 TF-CRE-基因三元组。最后,将这些相互作用简化为 TF-基因对,并汇总为 GRN。
3. 同时利用转录组数据+染色质可及性数据构建GNR:
当样本同时使用转录组学和染色质可及性进行检测(多组学数据)时,对每个模式进行预处理,如果需要,将未配对的模式整合。同时拥有这两种模式,方法可以同时利用前述三个建模步骤构建 TF-CRE-基因三元组,然后简化并汇总为 GRN。

浙公网安备 33010602011771号