Prediction and related genes of cancer distant metastasis based on deep learning
1. Abstract
肿瘤转移是导致肿瘤进展和治疗困难的主要原因之一。基因在肿瘤转移的过程中起着关键作用,因为它们可以影响肿瘤细胞的侵袭性、迁移能力和适应度。同时,肿瘤转移的器官也存在异质性。乳腺癌、前列腺癌等,容易在骨内转移。以往的研究指出,转移的发生与转移到哪个组织和基因密切相关。在本文中,作者基于LASSO和Pearson correlation coefficients 确定了与癌症转移到不同组织相关的基因。总共,作者鉴定了45个与骨转移相关的基因,89个与肺转移相关的基因,以及86个与肝转移相关的基因。通过这些基因的表达,作者提出了一个基于cnn的模型来预测转移的发生。作者将这种方法命名为MDCNN,它引入了一种调制机制,允许卷积核的权重在不同的位置和特征映射上进行调整,从而自适应地改变不同位置的卷积操作。实验证明,MDCNN在骨转移、肺转移和肝转移等方面都取得了令人满意的预测精度,且优于其他4种同类方法。作者对骨转移相关基因进行了富集分析和免疫浸润分析,发现了与骨转移相关的多种通路和GO terms,发现骨转移患者中巨噬细胞和单核细胞的丰度最高。
2. Introduction
导致癌症病例死亡率升高的一个重要因素是早期癌症诊断率有限。相反,随着癌症进展到后期阶段,恶性细胞在全身的广泛转移大大增加了患者死亡的可能性。为了在远处的器官中建立有效的定植,原发性癌细胞必须克服许多挑战。这个复杂而渐进的过程只允许一小部分的癌细胞能够忍受。这一旅程需要通过肿瘤脱落的材料穿越一个复杂的循环系统,以渗透到远处的组织。在整个这个阶段,癌细胞必须保持其细胞膜的完整性。此外,在到达新的器官时,它们必须逃避免疫反应,同时维持生长信号的激活。在偏远器官成功定植后,癌细胞刺激血管的发育,以满足其对生长的需求和增殖。随后,这些细胞在转移器官上表现出不受抑制的生长。这一阶段促使人体发生显著的生理变化,包括血钠水平降低、肌肉组织消耗、恶疾和最终死亡的。
现有的研究认为,癌症的远处转移遵循一种可识别的模式,而不是随机发生的。这种对特定器官的选择性亲和力被称为“嗜器官转移”(Organotropic metastasis)。这个概念最初是由Stephen Paget阐述的,他提出了有影响力的“种子和土壤”假说,认为某些肿瘤(“种子”)具有对特定器官(“土壤”)[4,5]的偏好。随后的临床数据为肿瘤转移中的器官偏好现象提供了大量的证据.脑、肺、骨和肝脏是四个最常见的转移部位。研究强调了结肠癌转移到肝和肺的倾向,而肝癌主要转移到肺。另一方面,乳腺癌和膀胱尿路上皮癌表现出广泛的转移部位,在临床记录中有相当多的肺、脑和肝转移.
其复杂的癌症发病机制强调了该疾病的复杂性,因此必须解决理解驱动癌症转移的机制的挑战. 这个问题是癌症研究领域中的一个突出问题和焦点。细胞从正常状态到突变状态的转变起源于基因改变。例如,Harrell等人。通过比较原发性和转移性肿瘤的转移性对来预测乳腺癌的脑转移和肺转移。他们的研究包括仔细检查促进乳腺癌转移到脑、肝和肺的基因表达特征。类似地,Kang等人研究了乳腺癌细胞系,并对这些细胞系中的过表达基因进行了功能验证。他们的工作揭示了合作基因,并描述了溶骨性骨转移的分子基础。在另一项研究中,Paula等人在晚期癌症患者中发现了与脑浸润有亲和力的特定细胞。通过对这些细胞[8]的临床样本的基因表达和功能分析,他们确定了能够使癌细胞突破血脑屏障的介质,包括cyclooxygenase COX2、epidermal growth factor receptor ligand HBEGF和α 2,6-Xylosyltransferase ST6GALNAC5。尽管如此,这些研究主要依赖于对单个基因的富集分析,往往集中于单一肿瘤类型向特定部位的进展。令人惊讶的是,利用原发癌症的转录组数据对位点特异性转移分类的全面研究仍然有限。
基因表达在疾病进展中起着重要作用。BRCA1和BRCA2等基因、PRPF4B和BUD31等剪接因子以及转录因子BPTF及其相关蛋白(如BAP18)的异常过表达已被证实与乳腺癌的远处转移有关。同样,EGFR、ALK、MYC、MMP13等基因的上调已被证实与肺癌的脑转移相关.在泛癌症研究的背景下,对Hippo通路和其他生物信号的探索揭示了它们在推进头颈部鳞状细胞癌和肝细胞癌的远处转移中的广泛作用。此外,Notch信号通路和G2M代谢通路已成为促进乳腺癌脑和骨转移的贡献者。为了追求对基因介导的癌症转移和途径驱动的转移的广泛了解,已经导致了一个跨越泛癌症的蛋白-蛋白相互作用网络的逐渐建立和增强。这个扩展的网络包含了更多的基因、基因关系和相互作用,从而在与癌症预后相关的研究中找到了应用。通过基于蛋白关系的网络结构分析,已经确定了c-Met、PI3K和AKT等抑制肺癌转移的关键蛋白靶点。随后的生物学实验证实了这些发现,c-Met推测的在各种癌症中的多功能性归因于其在上皮-间充质转化途径中的关键作用。在本研究范式中,Hsp90和Cdc37之间的相互作用由于其在蛋白激酶成熟以及癌细胞生长和凋亡信号通路的调控中的关键作用而受到关注。同样,由于Skp2和Skp1之间的相互作用因其在泛素连接酶中的重要作用而受到关注。Hsp90和Skp2的过表达与多种癌症的转移和侵袭有关,阻碍它们的表达途径是设计抑制癌症转移的方法是一个很有前途的途径。
骨是恶性肿瘤中最常见的转移部位之一。先前的研究表明,骨转移往往与其他与骨相关的情况相一致,包括骨痛、骨折、高钙血症和神经压迫综合征。在原发肿瘤、骨微环境和骨转移病变引起的并发症之间存在着复杂的相互关系和相互影响。根据癌症转移的性质,骨转移可分为溶骨型、成骨细胞型和混合型,每一种都显示了癌症转移领域的共性和独特的特征。对细胞图谱的分析显示,肺癌倾向于表现出溶骨转移,而前列腺癌更容易发生成骨细胞转移。与癌症骨转移相关的关键生物分子包括MMP-2/7/9、CXCL12、CD44、COX2、TGF-β、miR145/335/126、IL1/6/7/8/11、RANK/RANKL和更多的[27,28]。这些生物分子部分表明在骨转移过程中被释放的癌细胞的侵袭性增强,部分表明骨转移的促进作用,部分表明不同的骨转移类型。值得注意的是,这些生物分子也参与了各种骨相关的生理过程,强调了它们与骨相关疾病的相关性。与癌症骨转移相关的关键生物分子包括MMP-2/7/9、CXCL12、CD44、COX2、TGF-β、miR145/335/126、IL1/6/7/8/11、RANK/RANKL和更多的[27,28]。这些生物分子部分表明在骨转移过程中被释放的癌细胞的侵袭性增强,部分表明骨转移的促进作用,部分表明不同的骨转移类型。值得注意的是,这些生物分子也参与了各种骨相关的生理过程,强调了它们与骨相关疾病的相关性。虽然癌症表现出较高的个体特异性,但由于疾病晚期远处器官转移和占位现象的流行,可以推断在转移进展过程中存在共同的潜在机制。在泛癌症研究中,已经在多种癌症类型中发现了与转移相关的重要基因、基因突变和异常基因表达。例如,像GPS2(乳腺癌)、SOX9(结直肠癌)、TGIF1(结直肠癌)、ZFP36L1(泌尿系统癌)、ZFP36L2(结直肠癌)等基因,最初与一种特定癌症的转移有关,但已被发现与各种癌症的转移保持显著关联。此外,对特定生理过程的研究,如上皮-间充质转化(EMT)和生物分子通路的相关异常的研究已扩展到泛癌症背景。TGF-β、Wnt、Notch、Hedgehog和PI3K等通路被认为通过促进EMT现象促进癌症转移,在更广泛的泛癌症谱[33,34]中被观察到有类似的作用。一系列相互关联的研究已经深入研究了癌症的临床预后,重点是预测结果的方法,如转移的发生和特定转移部位的可能性。这些任务从根本上可以归结为分类挑战。为了提高预测精度,现有的方法采用了多方面的方法,包括实例选择、预测特征构建、模型优化和选择,所有这些都旨在改进分类器的性能。Sun D.等人通过整合多维数据(MDNNMD)引入了多模态深度神经网络来预测乳腺癌的预后。同时,Liao Q.等人[36]设计了一种多任务深度学习(MTDL)技术,克服了实例不足的局限性。他们的策略包括在多个任务中共享隐藏单元,从而提高了对癌症预后的预测准确性。集成多个分类器是优化分类器结果的一种有效策略。XiaoY.等人将深度学习方法与五种机器学习分类器(KNN、SVM、决策树、RF和GBDT)合并在泛癌症研究中。这种方法利用了一个两阶段模型,其中各种模型的第一阶段输出影响了第二阶段段模型。Na Liu等人利用信息增益定向模拟退火遗传算法包装器(IGSAGAW)智能诊断早期乳腺癌。他们的方法使用IG算法对特征进行优先级排序,并采用成本敏感的支持向量机进行特征提取。Moloud Abdar等人提出了CWV-BANN-SVM乳腺癌检测方法,结合信心加权投票,促进综合学习技术。这种方法将增强人工神经网络(BANN)与支持向量机结合起来,在威斯康辛州乳腺癌数据集(WBCD)上取得了成功。虽然集成分类器技术在解决单一癌症预后挑战方面显示出了希望,但某些限制仍然需要解决: (1)在特定数据集上训练的分类器遇到的过拟合问题阻碍了其通用性。(2)一些模型忽略了先验知识在特征选择中的作用,导致预测结果的生物学可解释性有限。这种限制限制了预后模型结果的临床效用。
3. Method
3.1 Screening of metastasis associated genes
我们使用了最小绝对收缩和选择算子(LASSO),这是一种用于回归分析和机器学习的特征选择和正则化的统计方法。它被用来从所有的基因表达中鉴定一个与转移相关的基因子集。首先,我们从包括转移性和非转移性病例的样本中收集了基因表达数据。我们根据转移组织对患有远处转移的患者进行了分类。因为LASSO包含了一个正则化项,以防止过拟合和执行特征选择。该公式包括一个正则化项,它根据系数的绝对值增加了一个惩罚:

其中,n是样本的数量。P是预测变量的数量。\(Y_i\)是第\(i\)个样本的目标值。\(x_{ij}\)是第i个样本的第j个预测变量(转移发生)的值。\(β_j\)是第j个预测变量的系数。λ是控制惩罚项强度的正则化参数.
我们使用交叉验证技术来评估模型对每个λ值的性能。我们将数据集分成10个折叠,用9个折叠训练模型,并在剩余的折叠上进行验证。重复此过程10次,每次旋转验证折叠文件。计算所有折叠中的平均性能度量(均方误差)。确定在交叉验证过程中获得最佳性能指标的λ值。这是λ,它在模型复杂性和对看不见数据的泛化之间提供了很好的权衡。
此外,我们还使用皮尔逊相关系数来进一步筛选转移相关基因。转移结果数据和基因表达数据(通过lasso筛选)均纳入式(2):
然后,我们可以得到转移和基因之间的系数。同时,还可以得到该系数的P值。只有同时通过LASSO和皮尔逊相关系数(P < 0.05)筛选的基因才被认为是转移相关基因。
3.2 Prediction of cancer metastasis occurrence
采用多维卷积神经网络(MDCNN)来预测患者中是否存在特定类型的肿瘤转移。MDCNN的结构如图1所示。与传统的机器学习算法和深度神经网络(DNN)等网络相比,MDCNN通过有效地利用多个尺度上的信息,提供了显著的优势,从而在复杂数据集上获得更好的预测性能。鉴于基因表达数据中存在的冗余性,MDCNN利用多种尺度的分析来捕获输入数据中复杂的细节和不同的特征。此外,MDCNN处理不同规模的信息,使其能够有效地集成上下文信息,从而能够更全面地理解数据中的复杂关系。MDCNN的具体架构如图所示,包括特征提取模块和预测模块。特征提取模块采用两种不同的内核大小的卷积来挖掘和学习在不同的接受域范围内的特征。该预测模块由四个完全连接的层组成,输出尺度分别为256、128、16和2,最终评估给定患者是否存在转移的概率.

4. Result
4.1 Datasets
我们通过TCGA从12,591名癌症患者的队列中获得了基因表达数据和表型信息。在这个队列中,1367例患者经历了癌症转移的实例。值得注意的是,一些个体遇到了多个转移事件,每个都针对不同的组织。在表1中,我们列举了10例发生转移的组织。值得强调的是,与淋巴结相关的组织内转移的患病率相对较高。这类类型包括各种淋巴结类型,如腹膜后淋巴结、淋巴结、远处淋巴结、主动脉旁淋巴结、锁骨上淋巴结和颈部淋巴结。

4.2 Metastasis associated genes
由于肺、肝和骨转移患者的患病率明显较高,我们对这些组织类型进行了LASSO分析,以确定与转移相关的基因。图2说明了我们的方法,其中我们对每个组织采用了10倍的交叉验证来确定最佳的lambda值。通过LASSO分析,我们确定了105个与骨转移相关的基因,69个与肺转移相关的基因,以及144个与肝转移相关的基因。

为了验证这些基因与转移的相关性,我们计算了皮尔逊相关系数。通过将基因表达与患者转移的发生情况并置,我们得到了相关系数。我们选择了相关系数p值低于0.05的基因作为与转移最密切相关的基因。具体来说,图2(C)显示了45个与骨转移相关的基因,图2 (F)显示了39个与肺转移相关的基因,图2(I)显示了86个基因与肝转移相关。显然,不同的组织转移表现出不同的差异基因表达模式。在不同的组织中,影响癌症转移的基因之间的重叠很小。因此,每种类型的癌症向不同组织的转移倾向是不同的和特异性的。
4.3 Metastasis prediction
AUC(ROC曲线下的面积)和AUPR(精度-召回曲线下的面积)是两种常用的评估指标,用于评估分类模型的性能,特别是在存在类别不平衡的情况下。这两个指标都为模型区分类和处理不平衡数据的能力提供了有价值的见解,并且它们捕获了模型性能的不同方面。当类分布不严重不平衡,以及假阳性和假阴性的相对重要性不强烈倾斜时,AUC特别有用。AUPR特别适合于在类分布不平衡的情况下评估模型。它关注积极类的表现,受消极类表现的影响较小。
从图3中可以看出,与其他方法相比,MDCNN在不同的组织转移瘤中表现最好。在不同的任务下,MDCNN的AUC和AUPR值都比其他方法高5%分。第二好的是DNN。这说明通过基因表达来预测癌症转移的发生是一个高维的非线性问题,而深度学习方法更适合于解决这类问题。与其他方法相比,CNN在理论上有很多优势。cnn被设计用于从数据中自动学习层次特征。它们可以以分层的方式学习低级特征和高级特征。此外,由于使用了卷积层,cnn本质上是平移不变的。这使得它们非常适合用于特性在输入数据中的位置并不重要的任务。相比之下,其他模型,如dnn、GBDT和支持向量机,可能需要手动的特性工程来实现平移不变性。对于复杂的数据有效,其中的模式可以在不同的尺度和方向上找到。CNN尤其擅长处理非线性模式的数据,然而,RF、GBDT和支持向量机在没有广泛的预处理或特征工程的情况下,自动提取这些层次特征的能力较差。

4.4 Fucntional identification of genes related to bone matastasis
我们利用DAVID对45个与骨转移相关的基因进行了富集分析。如图4(A)所示,显著性最高的通路为Ko05166和ko03015。Ko05166特异性地涉及到人类t细胞白血病病毒1感染。HTLV-1使个体更容易患上成人t细胞白血病/淋巴瘤(ATL),这种疾病通常与高钙血症和骨降解有关。This virus encodes the Tax oncoprotein.Gao等人(2005)[41]的一项研究发现,Tax +小鼠出现高钙血症、高频溶骨性骨转移和破骨细胞活性增加。研究人员发现,Tax和破骨细胞抑制剂骨保护素双转基因小鼠对溶骨性骨病具有保护作用,且小鼠的软组织肿瘤较少。同样,使用骨靶向唑来膦酸抑制破骨细胞可以保护Tax +小鼠免受骨和软组织肿瘤的侵袭,同时延长了它们的生存期。考虑到免疫失调,HTLV-1感染可干扰免疫系统,导致被感染的T细胞的增殖和免疫反应的改变。这种破坏可能会潜在地影响身体识别和管理癌细胞扩散的能力。此外,慢性炎症被认为是癌症进展和转移的一个原因。此外,慢性炎症被认为是癌症进展和转移的一个原因。有利于癌症的生长和扩散。另一方面,HTLV-1可以改变受感染的T细胞内的细胞信号通路。这些修饰随后可能影响与癌症转移相关的过程,如细胞运动、侵袭和与细胞外基质的相互作用。
而对于ko03015,则对应于mRNA监测通路。这一通路的紊乱可能导致肿瘤抑制基因或致癌基因水平的改变。这种破坏可能会导致癌症的发生和进展,包括转移。此外,上皮-间充质转化(EMT)是癌症转移的关键过程,可能会受到mRNA监测通路的改变的影响。这些改变可能会影响EMT相关基因的表达,影响癌细胞浸润周围组织和进入血液的能力。最后,与细胞粘附、运动性和细胞骨架重排相关的基因在癌症转移中起着关键作用。mRNA监测通路的不规则性可能会影响这些基因的表达,进而影响癌细胞的行为。
最值得注意的Gene Ontology (GO) terms是GO:0009295(类核)和GO:0004984(嗅觉受体活性)。目前,还没有报道的证据表明这些术语与骨转移有关。


4.5 Bone metastasis immune infiltrarion assay
CIBERSORT是一种免疫浸润分析工具,可以为骨转移患者肿瘤微环境中免疫细胞的组成提供有价值的见解。它允许研究人员去解卷积大量的基因表达数据,以估计在一个复杂的组织样本中存在的不同的免疫细胞类型的比例。
我们将骨转移患者的基因表达数据矩阵输入CIBERSORT算法。该算法将返回一个矩阵,其中包含每个患者样本的免疫细胞类型的估计比例,比较不同患者组之间的免疫细胞组成。
如图5所示,巨噬细胞和单核细胞的丰度最高。巨噬细胞和单核细胞都是在免疫系统中起着重要作用的白细胞。它们参与各种过程,包括炎症、组织修复和防御感染。这些细胞对癌症也有影响,特别是在骨转移的背景下。巨噬细胞和单核细胞参与了骨转移的几个阶段。巨噬细胞可以分泌吸引癌细胞到骨组织的因子。它们还创造了一种炎症环境,可以帮助癌细胞侵入骨骼。一旦癌细胞到达骨骼,它们就会与骨驻留细胞和包括巨噬细胞在内的免疫细胞相互作用。巨噬细胞可以影响骨微环境,使其更适合癌细胞的生存和生长。巨噬细胞可以通过释放分解骨组织的酶来促进骨降解。它们还能释放出生长因子,从而刺激骨骼中的癌细胞的生长。

5. Conclusion
肿瘤转移涉及到癌细胞从原发肿瘤部位扩散到身体的远处部位。这些细胞转移的能力取决于各种因素的复杂相互作用,包括它们对特定组织的特异性靶向作用。各种类型的癌症倾向于表现出转移到特定器官或组织的偏好,这受到诸如血流模式、血液内部相互作用等因素的影响微环境和分子特征。
癌细胞不同的基因表达谱可以显著影响其转移到不同器官的能力。基因表达需要基因信息被翻译成蛋白质等功能产物的过程。基因表达的差异可导致细胞行为的变化,包括转移的潜力。最初,我们使用LASSO和皮尔逊相关系数确定了与癌症转移相关的基因。对于转移到不同组织的癌症,我们分别分离了它们的相关基因。值得注意的是,我们分别发现了45、39和86个与骨、肺和肝转移相关的基因。值得注意的是,与这些特异性转移相关的基因之间的重叠很小,这强调了组织的特异性。
利用这些基因的表达模式,我们设计了一个基于CNN的预测模型,称为“MDCNN”的癌症转移。MDCNN巧妙地捕捉了基因表达和转移之间复杂的非线性关系,自主提取低维和高维特征与转移结果相关。对骨、肝和肺转移瘤的实证评估证实,MDCNN的AUC和AUPR超过了其他方法。我们还提供了一个理论分析,强调了MDCNN优于DNN、GBDT、RF和SVM。
此外,我们还对能够准确预测骨转移发生的基因进行了富集分析。这些基因在包括代谢、遗传信息处理和环境信息处理等途径中表现出富集。我们深入研究了顶级途径和与骨转移有关的GO术语之间的联系。最后,我们对骨转移患者进行了免疫浸润分析,发现巨噬细胞和单核细胞的丰度升高。这些免疫细胞可能通过肿瘤细胞的迁移和侵袭、转移生态位的制备、骨降解和生长因子以及免疫抑制等途径促进骨转移。


浙公网安备 33010602011771号