SCENIC笔记(初稿)
🧠 一句话总结 SCENIC 是什么?
SCENIC 是一套从单细胞转录组数据中,重建细胞内转录调控网络并评估其活跃度的工具链。它帮你找出:
谁在控制谁(TF → target genes),在哪些细胞里控制得最明显(regulon 活跃度)。
🧭 类比理解:细胞里的“地下指挥网络”
把每个细胞想象成一个城市,里面有很多工厂(基因)在运作。SCENIC 就是:
- 找出哪些人(转录因子 TF)可能在发号施令;
- 确认这些人是不是真的掌握了控制密码(motif);
- 看看每个城市(细胞)里,谁的命令正在被执行(regulon 活跃)。
SCENIC 的最终目的是:还原整个单细胞系统的调控生态。
⚙️ SCENIC 的三个核心步骤
🧩 Step 1:GRN inference(转录调控网络推断)
找出哪些转录因子可能在调控哪些基因
🔍 方法:
- 使用 GENIE3 或 GRNBoost 算法
- 通过机器学习模型,分析 TF 和其他基因表达的共变关系
- 输出:每个 TF 与其潜在目标基因的配对关系 → 称为 co-expression modules
📌 特点:
- 是个“猜测网络” → 只是表达的共变,还不能说明调控因果关系;
- 目标是找到潜在的 regulons(调控模块):TF + 它可能调控的一组 genes。
🔬 Step 2:Motif enrichment(motif 验证)
验证 TF 是否真的有“控制密码”写在目标基因的 DNA 上
🔍 方法:
- 检查目标基因上游序列(promoter/enhancer)有没有该 TF 的 motif;
- 使用 cisTarget 数据库(如 mm10/motif500bp)做富集分析;
- 剔除没有 motif 支撑的配对,只保留有机制证据的调控关系。
📌 输出:
- 一个可信度高的 regulon 列表:每个 TF 对应一组被它可能直接调控的基因集合。
🔥 Step 3:AUCell 评分(调控活跃度计算)
看看每个细胞里,哪些 regulon 在活跃执行命令
🔍 方法:
- 针对每个 regulon,查看它的 target genes 是否在某细胞中整体表达较高;
- 使用 AUC(Area Under Curve)算法给每个 regulon 打分,反映它在该细胞中的“活跃程度”。
📌 输出:
- 一个【细胞 × regulon(TF)】的活跃度矩阵;
- 可以用于聚类、绘图、UMAP可视化、亚群注释等下游分析。
🧾 SCENIC 最终产出物汇总
| 产出内容 | 含义描述 |
|---|---|
| Regulon 列表 | 每个转录因子与其可能直接调控的目标基因集 |
| AUCell 矩阵 | 每个细胞中,各 regulon(TF) 的活跃程度评分 |
| 网络图(可选) | 基于 TF-target 构建的调控网络图,用于展示 TF 互作/控制力大小 |
| Marker regulon | 每类细胞中特异激活的调控模块,可用于识别细胞类型调控特征 |
🔧 常用软件包及生态
- pySCENIC(Python 版本):速度快、维护活跃,支持大型数据
- SCENIC+ / cisTopic:更进一步整合 ATAC-seq 数据的拓展工具
- RSCENIC(R 版本):早期实现,适合小型数据集,依赖多
🧩 SCENIC 与传统差异分析的比较
| 特点 | 差异表达分析(DEG) | SCENIC |
|---|---|---|
| 关注点 | 哪些基因变了? | 谁在调控这些变化? |
| 输出类型 | 基因列表 | TF-Target 网络 + TF 活跃度 |
| 是否考虑调控机制 | ❌ | ✅ motif 验证 |
| 是否能跨细胞分析 | 一般基于分组 | 每个细胞都有 TF 活跃评分 |
🧠 总结一句话
SCENIC 是在单细胞层面探查基因表达背后的“幕后黑手”——转录因子的强大工具,帮我们从基因表达走向调控理解,从“发生了什么”转向“是谁导致了这些”。
浙公网安备 33010602011771号