TCGA
1. TCGA 背景
TCGA (The Cancer Genome Atlas,癌症基因组图谱)是美国国家癌症研究所(NCI)和国家人类基因组研究所(NHGRI)联合发起的大型癌症研究计划(2006-2018)。其目标是通过高通量组学技术(如基因组、转录组、表观组等),系统解析癌症的分子特征,为精准医学提供数据支持。
TCGA队列 (TCGA Cohorts)指TCGA项目中针对特定癌症类型收集的患者样本集合,每个队列包含患者的多组学数据及临床信息。
2. TCGA队列的核心特点
- 癌症类型覆盖广 :
包含33种癌症类型(如乳腺癌、肺癌、结直肠癌等),涵盖超过11,000例肿瘤样本及匹配的正常组织。 - 多组学数据整合 :
- 基因组数据 :全外显子测序(WES)、单核苷酸变异(SNV)、拷贝数变异(CNV)。
- 转录组数据 :RNA测序(RNA-Seq)、miRNA表达谱。
- 表观组数据 :DNA甲基化(如Illumina 450K芯片)。
- 蛋白质组数据 :部分队列包含蛋白质表达信息。
- 临床数据 :患者生存期、分期、治疗反应等。
- 标准化处理 :
所有样本遵循统一的实验和分析流程,确保数据可比性。
3. TCGA队列的研究意义
- 发现癌症驱动基因 :如TP53、EGFR等高频突变基因。
- 分子分型 :基于基因表达或甲基化特征将癌症分为不同亚型(如乳腺癌的Luminal A/B型)。
- 预后标志物 :识别与患者生存期相关的分子特征(如PD-L1表达与免疫治疗响应)。
- 药物靶点挖掘 :通过突变或通路富集分析寻找潜在治疗靶点。
4. TCGA队列的数据获取
数据平台 :
- GDC(Genomic Data Commons) :TCGA数据的官方存储库(https://portal.gdc.cancer.gov )。
- UCSC Xena :提供用户友好的数据浏览器(https://xenabrowser.net )。
常用工具 : - R/Bioconductor :TCGAbiolinks包用于数据下载与分析。
- Python :pandas、numpy结合GDC API进行数据处理。
5. 示例:TCGA队列的应用
研究场景 :在TCGA的肺腺癌(LUAD)队列中:
- 数据组成 :500+肿瘤样本,匹配正常组织50+例。
- 关键发现 :
- EGFR、KRAS等驱动基因突变与患者预后相关。
- 基于基因表达将LUAD分为3个分子亚型(终末呼吸单元型、近端炎症型、近端增殖型)。
- 临床转化 :指导EGFR抑制剂(如吉非替尼)的用药选择。
6. TCGA队列的局限性
- 样本代表性 :部分癌症队列样本量较小(如罕见癌症)。
- 数据异质性 :不同癌症类型的测序深度和覆盖范围可能不同。
- 缺乏长期随访 :部分患者的临床随访时间较短。
与ICGC队列的对比
ICGC (国际癌症基因组联盟):覆盖更多国际样本(如亚洲、欧洲),部分癌症类型与TCGA互补。
数据整合 :两者共同构成“泛癌症图谱”(PCAWG),推动跨癌症研究。
总结 :
TCGA队列是癌症研究的“金矿”,通过整合多组学数据与临床信息,为理解癌症机制、开发精准疗法提供了关键资源。研究者可基于TCGA队列进行数据挖掘,结合生物信息学工具(如差异表达分析、生存分析)探索科学问题。

浙公网安备 33010602011771号