加权基因共表达网络分析(Weighted Gene Co-expression Network Analysis, WGCNA)

1.基本概念

WGCNA 是一种基于基因表达数据的系统生物学方法,通过构建基因共表达网络,识别高度协同表达的基因模块(Module,并探索这些模块与表型(如疾病、生理特征)之间的关联。其核心思想是:“共表达的基因可能在功能上相关” 。

  • 基因共表达网络 :以基因表达数据为基础,计算基因间的表达相关性(如皮尔逊相关系数),构建无尺度网络(Scale-Free Network)。
  • 模块(Module) :一组高度互联的基因,可能共同参与某一生物学过程或通路。
  • 模块特征基因(Module Eigengene, ME) :模块内第一主成分,代表模块的整体表达模式。
  • 基因显著性(Gene Significance, GS) :基因与表型的相关性。
  • 模块-表型关联(Module-Trait Relationship) :模块特征基因与表型的统计关联强度。

2. WGCNA的核心目的

  • 降维 :将数千个基因的表达数据简化为少数几个功能模块。
  • 识别关键模块 :找到与目标表型(如疾病状态、药物反应)显著相关的基因模块。
  • 筛选核心基因(Hub Gene) :在模块中识别高度连接的基因,可能作为生物标志物或治疗靶点。

3. 分析流程

  • 步骤1:数据预处理
  • 输入数据 :基因表达矩阵(如RNA-seq或微阵列数据),样本需有表型信息(如疾病/对照、临床指标)。
  • 过滤低表达基因 :去除低方差或低表达量的基因。
  • 标准化 :消除技术偏差(如批次效应),常用方法包括TPM标准化、Z-score标准化。
  • 步骤2:构建共表达网络
  • 计算基因间相关性 :构建基因表达相关性矩阵(皮尔逊相关系数)。
  • 软阈值(Soft Thresholding) :选择幂指数β,使网络接近无尺度分布(增强鲁棒性)。
  • 构建邻接矩阵 :将相关性转换为连接强度(权重),公式:
    \(a_{ij}=|cor(x_i,x_j)|^{\beta}\)
  • 模块识别:通过层次聚类(Hierarchical Clustering)或动态剪切树(Dynamic Tree Cut)划分模块。
  • 步骤3:模块与表型关联分析
  • 计算模块特征基因(ME) :每个模块的第一主成分。
  • 关联分析 :计算ME与表型(如疾病状态、生存时间)的相关性(p值)。
  • 筛选显著模块 :选择与表型高度相关的模块(如p<0.05,相关性绝对值>0.5)。
  • 步骤4:模块功能解析
    • 功能富集分析 :对模块基因进行GO、KEGG分析,揭示生物学功能。
    • 识别Hub Gene :通过模块内连接度(Intramodular Connectivity)筛选核心基因。
  • 步骤5:验证与实验
    • 独立数据集验证 :在外部数据集中验证模块和Hub Gene的关联性。
    • 实验验证 :通过敲除、过表达等实验验证关键基因的功能。

4. 应用场景

  • 疾病标志物发现 :识别与疾病发生、预后相关的基因模块和Hub Gene。
  • 药物靶点预测 :在疾病相关模块中筛选潜在药物靶点。
  • 跨组学整合 :结合基因组、表观组数据,解析多组学调控网络。
  • 生物学过程研究 :揭示发育、分化等复杂过程中的协同表达机制。

5. 常用工具与资源

R包 :

  • WGCNA :核心分析工具,提供从网络构建到模块关联的完整流程。
  • flashClust :加速层次聚类。
  • igraph 、Cytoscape :网络可视化。
    数据库 :
  • TCGA 、GEO :获取公共基因表达数据。
  • STRING :辅助验证基因相互作用。

6.注意事项

  • 样本量 :建议样本数≥15,小样本可能导致结果不稳定。
  • 数据质量 :需严格质控(如去除离群样本)。
  • 模块解释 :需结合生物学背景,避免过度依赖统计显著性。
  • Hub Gene验证 :需实验验证其功能,避免假阳性。

7.示例分析

  • 场景 :在肝癌研究中,通过WGCNA识别到一个与肿瘤转移显著相关的蓝色模块。
  • 功能富集 :该模块基因显著富集于“细胞外基质重塑”(ECM-receptor interaction)。
  • Hub Gene :筛选出核心基因COL1A1,其高表达与患者预后差相关。
  • 实验验证 :敲除COL1A1后,肝癌细胞迁移能力显著下降。

WGCNA与GO/KEGG的互补性

  • WGCNA :侧重系统层面 的基因协同表达模式,揭示模块与表型的关系。
  • GO/KEGG :侧重单基因功能 或通路级 的注释。
  • 整合策略 :先用WGCNA筛选关键模块,再通过GO/KEGG解析模块功能。
posted @ 2025-03-28 16:54  殷素  阅读(1676)  评论(0)    收藏  举报