拓扑分析在生命科学中的数学实现
🧠 总体结构:什么是“拓扑学”在生命科学中的数学实现?
拓扑分析在生命科学中的数学实现,主要体现在以下核心思想:
将生物系统抽象为图(Graph)或网络(Network)结构,借助图论与复杂网络分析方法,研究生命系统中多实体(细胞、基因、蛋白等)之间的连接、传播、协同与结构演化。
图模型提供了一个通用的形式框架,能整合空间信息、表达关系和调控机制,揭示微观层级中的结构稳定性、通信效率与系统功能性。
🧮 一、基本数学对象:用“图(Graph)”抽象生命系统
📌 数学定义:
一个无向图可形式化地定义为:
$G = (V, E)$
其中:
- $V$:节点集合,表示生物实体(如细胞、蛋白、通路);
- $E$:边集合,表示它们之间的连接(如空间接近、调控作用、互作关系);
如果边带有权重,则称为加权图。
🧠 生物学示例抽象:
| 系统类型 | 节点(V) | 边(E) |
|---|---|---|
| 单细胞系统 | 单个细胞 / 细胞群 | 空间距离、信号互作、KNN连接 |
| 基因调控网络 | 转录因子 / 靶基因 | motif 调控、共表达关系 |
| 空间组学系统 | 空间坐标 / 细胞 | 邻域接触、信号扩散通道 |
| 蛋白互作网络 | 蛋白分子 | 互作关系(PPI)、通路共现 |
🧮 图结构建模方式:
- 邻接矩阵(Adjacency Matrix):
$A \in \mathbb{R}^{n \times n}, \quad A_{ij} = \begin{cases} 1, & \text{if node } i \text{ connected to } j \ 0, & \text{otherwise} \end{cases}$
- 加权图:
$A_{ij} \in \mathbb{R}, \quad \text{表示节点连接强度}$
- 多层图(Multilayer Graph):
多种实体(如细胞和基因)构建不同层,支持层间交互连接。
🔍 二、常见拓扑特征与其生物意义
📊 节点层级特征(Local)
| 特征名 | 数学公式 | 生物解释 |
|---|---|---|
| 度数 $k_i$ | $k_i = \sum_j A_{ij}$ | 节点的直接连接数,表示活跃程度 |
| 聚类系数 $C_i$ | $C_i = \dfrac{2e_i}{k_i(k_i - 1)}$ | 邻居节点之间也相连的概率,表示局部密度 |
| 中介中心性 $\text{betw}(i)$ | $\sum_{s \ne i \ne t} \dfrac{\sigma_{st}(i)}{\sigma_{st}}$ | 控制其他节点间路径的中转能力,信息控制力 |
🌐 网络整体拓扑指标(Global)
| 指标 | 数学公式 | 生物系统含义 |
|---|---|---|
| 模块度 $Q$ | $Q = \dfrac{1}{2m} \sum_{ij} \left( A_{ij} - \dfrac{k_i k_j}{2m} \right) \delta(c_i, c_j)$ | 网络是否可自然分区(如功能模块、细胞群) |
| 平均路径长度 | $\text{APL} = \frac{1}{\frac{n(n-1)}{2}} \sum_{i<j} \text{dist}(i,j)$ | 表示系统中信号传播的整体效率 |
| 网络熵 $H$ | $H = -\sum p_i \log p_i, \quad p_i = \dfrac{k_i}{2m}$ | 衡量网络有序性;熵越高,系统越混乱 |
🧠 三、常用图论算法及其生物实现
✅ 1. 社区发现(Louvain / Leiden)
- 目标:最大化模块度 $Q$;
- 用途:自动识别功能紧密的子网络,如:细胞亚群、信号集群;
- 📍 示例:单细胞图中识别免疫亚型。
✅ 2. 连通性分析(Connected Components)
- 用 DFS 或 Union-Find 判断是否存在独立子图;
- 📍 应用:识别“孤岛细胞群”、组织中断裂区域、局部免疫屏障。
✅ 3. 谱聚类(Spectral Clustering)
- 基于图拉普拉斯矩阵的特征向量嵌入:
$L = D - A, \quad L_{\text{sym}} = I - D^{-1/2} A D^{-1/2}$
- 📍 应用:开发 UMAP、tSNE、轨迹推断(如 PAGA)等降维技术;
- 可以辅助发现潜在发育轨迹或免疫谱系结构。
✅ 4. 图构建策略(从原始数据出发)
| 构建方法 | 原理说明 | 应用示例 |
|---|---|---|
| KNN 图 | 用欧氏或曼哈顿距离连接最近 $k$ 个邻居 | 单细胞图神经网络、聚类分析 |
| 空间图 | 用坐标位置判断空间邻接 | Visium / Xenium 空间图构建 |
| 共表达图 | 基因表达量之间的 Pearson/Spearman | 用于调控网络(WGCNA / SCENIC) |
🧪 实践路径与可用工具
📦 Python 工具:
| 工具 | 用途 |
|---|---|
networkx / igraph |
通用图分析与算法运行 |
pyvis |
可交互式图结构可视化 |
Scanpy |
单细胞分析中内嵌图构建、聚类与可视化 |
📦 R 工具:
| 工具 | 用途 |
|---|---|
igraph |
通用图运算平台 |
WGCNA |
基因共表达网络分析 |
Seurat |
邻接图构建、Leiden聚类与空间分析 |
🧬 分析流程小结:
表达矩阵(细胞×基因)
↓
构建图结构(细胞图 / 基因图)
↓
计算拓扑指标(度数、模块、路径)
↓
结构识别(聚类)、轨迹重建、功能注释
✅ 总结一句话:
拓扑分析 = 结构视角下的生命解析工具,帮助我们从“关系”中看见功能,从“结构”中预测状态,从“网络”中理解机制。
🤖 四、图神经网络(GNN)在生命科学中的应用
图神经网络(Graph Neural Networks, GNNs)是一类能够从图结构数据中自动学习节点表示的方法。在生命科学中,GNN 将“结构 + 表达”有机融合,极大提升了对空间依赖、生物异质性与网络机制的建模能力。
📌 基本原理:邻居信息聚合
GNN 的核心思想是:
每个节点的表示是它自己与邻居节点的特征加权组合,并通过多层聚合构建上下文表示。
❗核心公式(以 Graph Convolutional Network 为例):
$h_i^{(l+1)} = \sigma \left( \sum_{j \in \mathcal{N}(i)} \dfrac{1}{c_{ij}} W^{(l)} h_j^{(l)} \right)$
- $h_i^{(l)}$:第 $l$ 层中节点 $i$ 的表示;
- $W^{(l)}$:可学习的变换矩阵;
- $\mathcal{N}(i)$:节点 $i$ 的邻居集合;
- $\sigma$:激活函数(如 ReLU);
- $c_{ij}$:归一化系数(如 $\sqrt{d_i d_j}$)
🧬 在生物图中的典型应用:
| 应用领域 | 节点表示 | 图结构来源 | GNN目标 |
|---|---|---|---|
| 单细胞图分析 | 单个细胞 | KNN 或空间邻接 | 细胞聚类、伪时序、谱系分析 |
| 基因调控网络 | 基因 / TF | SCENIC生成的调控图 | 推断关键调控因子 |
| 蛋白互作图 | 蛋白质 | PPI数据库(如STRING) | 功能预测、药靶预测 |
| 空间转录图 | 空间坐标点 | Delaunay三角图、邻域图 | 空间特征聚合,模式检测 |
| 多模态组学图 | 细胞 / 通路 | 跨模态边(如 gene-pathway) | 多模态嵌入与整合 |
🚀 已落地模型示例:
| 模型名 | 特色与应用 |
|---|---|
| GraphSAGE | 适合大图学习,单细胞整合(如 scGNN) |
| GAT(注意力GNN) | 识别重要邻居,如关键信号细胞 |
| STGATE | 空间+表达双建图,实现空间解耦聚类 |
| DeepMAPS | 多组学(RNA+ATAC)异构图联合学习 |
| CellVGAE | 用 GNN 结构做单细胞无监督降维 |
📊 生物网络中的优势:
- 考虑邻居上下文,不再是孤立样本;
- 支持复杂图结构:多边、多层、多模态;
- 适用于空间异质性建模(见下文 spaGCN、stGCN);
- 可解释性增强:注意力机制可找出关键“影响邻居”;
🌐 五、空间图卷积模型:spaGCN 与 stGCN
在空间转录组中,传统聚类方法(如 PCA + k-means)忽略空间邻域,容易割裂具有连续结构的区域。
因此,发展出专门适用于空间图数据的神经网络,如 spaGCN、stGCN、STAGATE、SpaFormer 等。
🧱 1. spaGCN(Spatial Graph Convolutional Network)
✅ 核心思想:
将空间邻域图 + 基因表达嵌入图合并为联合图结构,利用 GCN 进行空间敏感型聚类。
👣 建模流程:
- 输入表达矩阵 $X$ 和空间坐标 $(x,y)$;
- 构建两种邻接图:
- 表达 KNN 图 $A_1$;
- 空间邻接图 $A_2$(如 Delaunay 图);
- 融合图结构:$A = \alpha A_1 + (1-\alpha) A_2$;
- 用 GCN 提取表示进行聚类。
📌 应用成效:
- 识别 Visium 中脑部层状结构;
- 精确分割肿瘤边缘微环境;
- 与 histology 图像可融合(与 DeepST 配套使用);
🧱 2. stGCN(Spatial-temporal GCN)
✅ 核心思想:
用于处理空间 + 时间序列变化的图结构,比如肿瘤生长过程、组织发育阶段等。
✨ 结构:
- 节点:不同时间点下的细胞或组织区域;
- 空间边:邻域连接;
- 时间边:同一位置跨时间连接($t \rightarrow t+1$);
- 用 GCN+RNN 结构处理时空联合序列。
📌 应用场景:
- 发育图谱(如小鼠胚胎);
- 疾病进展(如炎症转癌);
- 模拟组织演化轨迹。
🗺️ 模型架构图(简化)
[空间表达矩阵 X]
↓
[空间图 A1] + [表达图 A2]
↓
[联合邻接矩阵 A]
↓
[GCN嵌入模块]
↓
[聚类 / UMAP]
如结合 STAGATE,还可增加自动编码器结构以提取非线性表达特征。
📦 Python库与工具支持:
| 工具包 | 功能 | 说明 |
|---|---|---|
torch-geometric |
通用 GNN 训练框架 | 支持 GCN, GAT, SAGE 等模型 |
scanpy + STAGATE |
空间图聚类 | 支持空间图构建与训练 |
scvi-tools |
空间 VAE,适配单细胞 | 适合无监督嵌入表示学习 |
Squidpy |
构建空间邻域图 | 支持图生成与空间聚类 |
✅ 总结一段话:
图神经网络与空间图卷积模型为生物空间组学与单细胞分析注入了结构智能,使得模型能理解“空间接近 ≠ 表达相似”,从而在保留局部结构的同时识别全局模式,是未来 AI-omics 分析的核心引擎之一。
浙公网安备 33010602011771号