加权基因共表达网络分析(Weighted Gene Co-expression Network Analysis, WGCNA)
1.基本概念
WGCNA 是一种基于基因表达数据的系统生物学方法,通过构建基因共表达网络,识别高度协同表达的基因模块(Module,并探索这些模块与表型(如疾病、生理特征)之间的关联。其核心思想是:“共表达的基因可能在功能上相关” 。
- 基因共表达网络 :以基因表达数据为基础,计算基因间的表达相关性(如皮尔逊相关系数),构建无尺度网络(Scale-Free Network)。
- 模块(Module) :一组高度互联的基因,可能共同参与某一生物学过程或通路。
- 模块特征基因(Module Eigengene, ME) :模块内第一主成分,代表模块的整体表达模式。
- 基因显著性(Gene Significance, GS) :基因与表型的相关性。
- 模块-表型关联(Module-Trait Relationship) :模块特征基因与表型的统计关联强度。
2. WGCNA的核心目的
- 降维 :将数千个基因的表达数据简化为少数几个功能模块。
- 识别关键模块 :找到与目标表型(如疾病状态、药物反应)显著相关的基因模块。
- 筛选核心基因(Hub Gene) :在模块中识别高度连接的基因,可能作为生物标志物或治疗靶点。
3. 分析流程
- 步骤1:数据预处理
- 输入数据 :基因表达矩阵(如RNA-seq或微阵列数据),样本需有表型信息(如疾病/对照、临床指标)。
- 过滤低表达基因 :去除低方差或低表达量的基因。
- 标准化 :消除技术偏差(如批次效应),常用方法包括TPM标准化、Z-score标准化。
- 步骤2:构建共表达网络
- 计算基因间相关性 :构建基因表达相关性矩阵(皮尔逊相关系数)。
- 软阈值(Soft Thresholding) :选择幂指数β,使网络接近无尺度分布(增强鲁棒性)。
- 构建邻接矩阵 :将相关性转换为连接强度(权重),公式:
\(a_{ij}=|cor(x_i,x_j)|^{\beta}\) - 模块识别:通过层次聚类(Hierarchical Clustering)或动态剪切树(Dynamic Tree Cut)划分模块。
- 步骤3:模块与表型关联分析
- 计算模块特征基因(ME) :每个模块的第一主成分。
- 关联分析 :计算ME与表型(如疾病状态、生存时间)的相关性(p值)。
- 筛选显著模块 :选择与表型高度相关的模块(如p<0.05,相关性绝对值>0.5)。
- 步骤4:模块功能解析
- 功能富集分析 :对模块基因进行GO、KEGG分析,揭示生物学功能。
- 识别Hub Gene :通过模块内连接度(Intramodular Connectivity)筛选核心基因。
- 步骤5:验证与实验
- 独立数据集验证 :在外部数据集中验证模块和Hub Gene的关联性。
- 实验验证 :通过敲除、过表达等实验验证关键基因的功能。
4. 应用场景
- 疾病标志物发现 :识别与疾病发生、预后相关的基因模块和Hub Gene。
- 药物靶点预测 :在疾病相关模块中筛选潜在药物靶点。
- 跨组学整合 :结合基因组、表观组数据,解析多组学调控网络。
- 生物学过程研究 :揭示发育、分化等复杂过程中的协同表达机制。
5. 常用工具与资源
R包 :
- WGCNA :核心分析工具,提供从网络构建到模块关联的完整流程。
- flashClust :加速层次聚类。
- igraph 、Cytoscape :网络可视化。
数据库 : - TCGA 、GEO :获取公共基因表达数据。
- STRING :辅助验证基因相互作用。
6.注意事项
- 样本量 :建议样本数≥15,小样本可能导致结果不稳定。
- 数据质量 :需严格质控(如去除离群样本)。
- 模块解释 :需结合生物学背景,避免过度依赖统计显著性。
- Hub Gene验证 :需实验验证其功能,避免假阳性。
7.示例分析
- 场景 :在肝癌研究中,通过WGCNA识别到一个与肿瘤转移显著相关的蓝色模块。
- 功能富集 :该模块基因显著富集于“细胞外基质重塑”(ECM-receptor interaction)。
- Hub Gene :筛选出核心基因COL1A1,其高表达与患者预后差相关。
- 实验验证 :敲除COL1A1后,肝癌细胞迁移能力显著下降。
WGCNA与GO/KEGG的互补性
- WGCNA :侧重系统层面 的基因协同表达模式,揭示模块与表型的关系。
- GO/KEGG :侧重单基因功能 或通路级 的注释。
- 整合策略 :先用WGCNA筛选关键模块,再通过GO/KEGG解析模块功能。

浙公网安备 33010602011771号