生信干货 | 疾病分子分型全流程解析
肿瘤分子分型(Molecular Classification)由美国国立癌症研究所首次提出,是基于综合的分子检测和分析手段,对肿瘤样本进行准确亚型区分的方法,它使肿瘤的分类基础由病理特征向分子特征转变,帮助研究者深入剖析肿瘤分子水平的异质性,从而实现针对不同亚型的精准治疗。
目前比较成熟的常见肿瘤分子分型[2]

分子分型流程
2.1 数据预处理通常情况下,组学数据集是高维的,且包含缺失值和噪音。数据清洗和预处理是数据分析的前置工作,其目的是减少数据中的噪声和错误,为后续的数据分析提供高质量的输入。蛋白/修饰组学数据的预处理详见“高分文章蛋白质组学数据预处理调研报告”推文。2.2 分子特征筛选常见的特征筛选是基于变异系数(CV),绝对中位差(MAD),标准差(SD)等计算指标筛选表达峰度在不同样本间存在明显波动的特征。例如基于上述指标排序后取top 50%,可利于提升下游分型算法的计算效率[3]。当然特征筛选方法可根据研究目的灵活调整,例如Rong Zeng在其结直肠癌研究中,筛选2440个癌与癌旁显著差异的特征进行分子分型[4]。
2.3 选择分型算法常见的分型算法有Consensus Cluster一致性聚类,Non-Negative Matrix Factorization (NMF)非负矩阵分解等,可分别基于R语言软件包'ConsensusClusterPlus' 和 'NMF' 实现。
2.4 判断最优分型数量
由于分子分型属于无监督聚类,运行算法前我们并不清楚基于当前的样本分几类是最优的,因此分型算法通常会运行许多次,用于评估不同分类数量下聚类的稳定性。例如Consensus Cluster算法默认每次随机选取80%的样本进行分型(即重采样)。
假设有D1,D2...Dn这N个样本,那么即可生成NxN的聚类一致性矩阵,如下:Cij 代表在多次聚类结果中,样本Di 和样本Dj 被划分到同一类的概率(该值在0-1之间,越大表示样本ij被划分为同一类的概率越大)。
D1 D2 D3... Dn
对于聚类一致性矩阵,基于热图即可方便地对其可视化,下图中,不同的k值表示不同亚型数量下的聚类一致性热图。热图行和列均为样本,上侧color bar为样本对应的亚型注释,热图颜色深浅表示聚类一致性高低。

除了上述热图,还会有更加量化的分型评价指标用于指导选择最优分型数量,例如Consensus Cluster算法的一致性累计分布图,NMF算法的轮廓系数和共表象系数折线图。它们都基于上述聚类一致性矩阵进一步计算得到,因此只需理解聚类一致性,简单查阅计算原理即可灵活运用,由于篇幅的限制,此处不再详述。
分型结果的临床应用
经过上述分子分型流程,我们可以得到每个患者的亚型标签,接下来,通过整合患者分型与临床指标的关联,可以实现对分子分型结果进行临床解释,通过分析亚型特征和功能分析,可以实现针对不同亚型的精准化治疗方案制定。3.1 关联临床分子特征
如下图,研究者基于分型算法得到乳腺癌的4个亚型(NMF cluster),通过热图可视化了亚型与患者临床特征的关联。例如NMF Basal-I亚型几乎包含了全部的PAM50 Basal样本,并且显著富集了TP53突变和阴性的PR/ER状态。
除了上述特征,其它文献中还会将亚型与年龄、性别、TNM分期等常见的临床特征关联。特别的,本文中作者还计算了每个样本的干性/免疫/基质得分,并揭示NMF Basal-I亚型具有高水平的干性和免疫得分。
此外,如下图,KM曲线是展示亚型与患者生存关联的通用方法[5]。


3.2 筛选亚型特征 & 功能注释
筛选各亚型间特异表达特征通常基于差异表达算法,包括t test/wilcoxon rank sum test/anova等。例如下文的肺癌研究中,研究者分别针对4个组学数据,基于秩和检验筛选每个亚型差异最显著的Top 50特征绘制热图,进一步对这些特征富集得到每个亚型失调的功能并标注在热图右侧(富集方法详见富集软文)。例如,下图展示亚型1在多个组学数据中均有免疫系统相关基因的表达上调,且显著富集到了免疫相关信号通路[6]。

3.3 寻找潜在治疗靶点
如下图,Fuchu He教授团队首先基于分子分型揭示了早期肝癌预后显著差的亚型III患者群体,然后基于T检验删选各亚型特征蛋白,并发现亚型III特征蛋白SOAT1的高表达具有非常大的预后风险,暗示靶向该蛋白可能对临床治疗有益。接着细胞系实验验证敲低SOAT1可显著抑制增殖和转移,最后验证SOAT1的抑制药物Avasimibe在细胞系和PDX模型中可实现相似影响。

景杰生物分子分型产品
景杰生信可提供包含以上内容的,从数据质控预处理,到确定分型个数,结合临床特征和功能分析的分子分型全流程分析,实现基于蛋白质、磷酸化修饰组学等数据的复杂疾病精准诊断,促进治疗指导、复发监控和药物研发。


参考文献1. Zhao L, et al. 2019. Molecular subtyping of cancer: current status and moving toward clinical applications. Brief Bioinform. 2. Zhang B, et al. 2016. Molecular Classification of Common Solid Cancers. Cancer Research on Prevention and Treatment.3. Jiang Y, et al. 2019. Proteomics identifies new therapeutic targets of early-stage hepatocellular carcinoma. Nature.4. Li C, et al. 2020. Integrated Omics of Metastatic Colorectal Cancer. Cancer Cell.5. Krug K, et al. 2020. Proteogenomic Landscape of Breast Cancer Tumorigenesis and Targeted Therapy. Cell.6. Gillette MA, et al. 2020. Proteogenomic Characterization Reveals Therapeutic Vulnerabilities in Lung Adenocarcinoma. Cell.
景杰生物作为修饰组学领域的领跑者,拥有多种修饰抗体和修饰组学质谱检测服务。如果您想了解相关产品和服务的更多信息,请扫描下方二维码填写合作咨询表单、或咨询景杰生物销售工程师、或拨打科服热线400-100-1145。


浙公网安备 33010602011771号