Kyoto Encyclopedia of Genes and Genomes (KEGG) pathway analysis(KEGG通路分析)

1.KEGG的基本概念

KEGG是一个整合基因、通路、疾病和药物信息的综合数据库,旨在系统地解析基因与基因组的功能。其核心内容是KEGG通路(Pathway) ,通过手工绘制的分子相互作用网络图(如代谢通路、信号转导通路等),将基因、蛋白质、化合物的功能联系起来。
KEGG通路分为以下几类:

  • 代谢通路(Metabolism) :如糖酵解、三羧酸循环。
  • 遗传信息处理(Genetic Information Processing) :如DNA复制、转录、翻译。
  • 环境信息处理(Environmental Information Processing) :如信号转导(MAPK通路、PI3K-Akt通路)。
  • 细胞过程(Cellular Processes) :如细胞周期、凋亡。
  • 疾病相关通路(Human Diseases) :如癌症、神经退行性疾病。
  • 药物开发(Drug Development) :药物靶点与代谢路径

2.KEGG通路分析的目的

  • 功能关联 :将基因或蛋白质映射到已知通路,揭示其参与的生物学过程。
  • 通路富集分析(Pathway Enrichment) :在组学数据(如差异表达基因)中,统计显著富集的通路,解释实验结果的生物学意义。
  • 系统生物学研究 :构建分子相互作用网络,探索疾病机制或药物靶点。

3. 分析流程

  • 输入数据 :一组目标基因或蛋白质(如RNA-seq筛选的差异表达基因)。
  • 通路注释 :通过基因ID(如Entrez ID、KO编号)将目标基因映射到KEGG通路。
  • 富集分析 :
    • 使用超几何检验或Fisher精确检验,计算目标基因集在特定通路中的富集程度(p值)。
    • 校正p值(如Benjamini-Hochberg校正)以减少假阳性。
  • 结果可视化 :
    • 通路图(Pathway Map) :用颜色标记目标基因在通路中的位置(如KEGG Mapper工具)。
    • 富集结果图 :柱状图、气泡图展示显著富集的通路(如使用R包clusterProfiler或pathview)

4.应用场景

  • 疾病机制研究 :例如,发现肿瘤相关基因富集在“细胞周期调控”或“PI3K-Akt信号通路”。
  • 药物靶点预测 :通过通路分析寻找潜在药物作用靶点(如代谢通路中的关键酶)。
  • 跨组学整合 :结合基因组、转录组、蛋白质组数据,构建分子调控网络。

5.常用工具和数据库

  • KEGG官网 (https://www.kegg.jp ):提供通路图、基因注释和分析工具(如KEGG Mapper)。
  • DAVID :支持KEGG通路富集分析。
  • clusterProfiler (R包):自动化完成KEGG富集分析和可视化。
  • Metascape :整合KEGG、GO等数据库的在线分析工具。
  1. 注意事项
  • 物种特异性 :KEGG通路在不同物种中的注释可能不一致,需确认目标物种的数据库支持。
  • 通路覆盖范围 :部分通路可能缺乏完整注释,需结合文献补充。
  • 生物学验证 :富集结果需结合实验验证(如敲除关键基因、通路抑制剂实验)。
posted @ 2025-03-28 16:38  殷素  阅读(1440)  评论(0)    收藏  举报