National Science Review 综述:生物信息学中的基础模型

2025年01 月25 日,中南大学王建新等(团队详情在文末)在《 National Science Review》期刊上发表了一篇题为“Foundation models in bioinformatics”的研究论文,其中指出随着基础模型(FMs)的采用,人工智能(AI)在生物信息学中的重要性日益增加,并成功解决了许多历史挑战,如预训练框架、模型评估和可解释性。由于实验过程既昂贵又耗时,FMs在处理大规模未标记数据集方面表现出显著的能力。在各种下游任务中,FMs持续取得显著成果,在表示生物实体方面展示了高准确性。通过FMs的应用,计算生物学进入了一个新纪元,不仅关注一般性的生物学问题,也针对特定的生物学挑战。在这篇综述中,作者介绍了最近在生物信息学中应用于多种下游任务的基础模型进展,包括基因组学、转录组学、蛋白质组学、药物发现和单细胞分析。作者的目标是帮助科学家根据四种模型类型——语言基础模型、视觉基础模型、图基础模型和多模态基础模型——选择合适的生物信息学基础模型。除了理解分子图景外,AI技术还为分子生物学的持续创新奠定了理论和实践基础(文章较长(可到总结-概述-分析方法最后部分看汇总))。

图片


简介

基础模型代表了大规模的人工智能系统,这些系统在庞大的数据集上进行了广泛的预训练,从而使其能够应用于多种下游任务。FMs通过在标记和未标记数据上训练神经网络来构建,使它们能够识别基本模式并将知识推广到新任务中。在基础模型出现之前,大多数AI系统是使用更传统的方法构建的,这些方法严重依赖于明确的人工工程和预定义规则,而不是直接从数据中学习。大型预训练模型(PTMs)的出现从根本上改变了人工智能的格局。该领域目前正在经历一场由开发能够在广泛的数据集上进行训练并可应用于多样化的下游应用的模型推动的范式转变。基础模型由于其能力和技术原理以及应用和社会影响而带来了巨大的机遇和内在风险。随着计算能力和数据可用性的持续扩展,在四个关键领域取得了显著突破:有效架构的设计、丰富上下文信息的利用、计算效率的提升以及解释性分析的执行。FMs的发展强调了PTMs在AI技术范围内的核心作用。

图片

与预训练架构一样,许多大规模基础模型被分为四种不同类型的AI模型,包括语言FMs、视觉FMs、图FMs和多模态FMs。语言FMs:Word2Vec是一种早期将单词转换为分布式表示的PTM;Transformers处理序列数据,训练大型语言模型(LLMs),超越循环神经网络(RNNs);BERT和GPT是基于transformer的PTMs,不同于词级别的PTMs。视觉FMs:AlexNet是一个显著推进计算机视觉(CV)的卷积神经网络(CNN);ResNet引入了带有残差层的快捷连接,并在ImageNet上进行训练;Segment Anything Model(SAM)是一种可提示分割方法,能够分割任何地方的一切。图FMs:图神经网络(GNNs)是用于新兴和同质化任务的信息处理架构;MPNN和GIN采用全局和局部时间消息传递机制;Graphormer使用空间编码表示节点之间的结构关系;GraphRAG是一个用于检索增强生成(RAG)的结构化分层框架。多模态FMs:ViT在初步研究中优于传统的监督CNN;CLIP构建了一个基于transformer的多模态PTM,显示出有希望的结果。

图片

最近,一些基础模型已成功应用于生物信息学问题,如生物标志物发现、酶设计、抗体-抗原识别、药物发现、组学分析和疾病诊断。本研究的目的是对可用于训练监督和非监督学习模型的生物信息学FMs进行分析,以解决如核心生物学问题和综合生物学问题等应用。借助AI技术,可以理解分子图景以及人类生理学和分子生物学的各个方面。几种突出的基础模型被用于深入理解高通量生物数据,随后讨论了预测和生成模型如何在生物信息学的各种下游任务中得到应用,如图1所示。

图片

图1基础模型的类型及其应用


当前的综述从三个角度考察了生物信息学中的基础模型。首先,一些综述文章总结了应用于生物信息学任务的大规模语言模型。Gao概述了基于transformer并针对生物信息学定制的基础模型,这些模型直接应用于生物序列数据和可序列化数据。Heider讨论了用于识别生物信息学模式的大规模语言模型,并分析了它们在加速多组学和个人化医学发现方面的潜力。此外,一些调查论文列举了解决生物信息学问题的具体模型。Cheng总结了计算生物学中用于生成蛋白质、药物及蛋白质-配体相互作用模型的扩散建模框架。进一步地,一些综述文献总结了生物信息学和医学领域中的许多传统模型。Li总结了深度学习模型的当前趋势,以研究特定的生物学挑战,评估其在序列分析、结构预测和功能注释中的应用。Rajpurkar列出了结合电子健康记录、基因组学、临床文本和医疗模态的一般性医疗AI模型。尽管如此,目前大多数综述几乎完全集中在一类大规模模型或某些应用于生物信息学的传统模型上,而没有考虑到各种基础模型。

图片

本综述为生物信息学中的基础模型提供了新的见解,主要围绕三个目标展开。首先,作者介绍了生物信息学基础模型作为多功能工具的最新进展,通过聚焦于四种类型的基础模型(如语言FMs、视觉FMs、图FMs和多模态FMs)提供对生物信息学应用的全面理解。其次,作者探讨了生物信息学FMs在五个下游任务中的应用,包括基因组学、转录组学、蛋白质组学、药物发现和单细胞分析。作者的讨论集中在生物数据库、训练策略、超参数大小和生物应用方面。最后,基于模型预训练框架、基准选择、白盒与可解释性以及模型幻觉评估方面的经验,作者讨论了生物信息学FMs有前景的发展轨迹。

图片


生物信息学基础模型的发展

随着深度学习的兴起,基础模型在生物信息学中的应用逐渐流行,这主要得益于大规模预训练模型的引入。由于这些努力,在生物信息学中,基础模型(包括语言FMs、视觉FMs、图FMs和多模态FMs)在生物学应用(如基因组学、转录组学、蛋白质组学、药物发现和单细胞分析)中展现了有希望的结果。需要系统地回顾这些底层的生物信息学基础模型,特别关注各种深度学习架构。生物信息学中FMs的发展如图2所示。

图片

图2基础模型的演变


最初的生物信息学模型主要集中在特定的预测任务上,例如序列分类(如DNA/RNA/蛋白质序列注释)和二级结构预测。这些模型通常是任务特定的,并且常常是从头开始使用领域特定数据集开发的。随后,生物信息学特征建模阶段采用了类似于自然语言处理中使用的通用预训练策略,例如BERT。像DNABERT这样的模型被创建用于在基因组数据上进行大规模预训练,使其能够捕捉生物序列中固有的广泛可转移特征。随着特征模型的发展,它们开始整合多任务学习和迁移学习技术,从而能够在多种生物任务中表现出色,包括蛋白质折叠、基因组序列分析和药物发现。

图片

AlphaFold等模型的出现,用于蛋白质结构预测,是这一时代的典范;这些大规模预训练模型可以针对高度专业化的任务进行微调,从而在结构生物信息学领域取得了突破性的进展。最新一代的生物信息学基础模型的特点在于其多模态能力,这促进了对各种类型生物数据(包括基因组、转录组、蛋白质组甚至临床信息)的整合和推理。像GLUE这样的模型最初是为自然语言处理任务开发的,但随后被改编用于生物信息学应用,如文献挖掘,以及为多组学数据设计的多任务深度学习框架,体现了向多模态学习发展的趋势。

图片

通过揭示生物信息学基础模型的发展过程,可以深入了解改进后的模型是如何克服初始模型的局限性和缺点的。利用最新的生物信息学基础模型,可以实现前所未有的准确性,构建一个集成的人工智能模型,并执行更丰富的下游分析。以经典的生物学问题“蛋白质三维结构重建”为例,DeepMind在过去五年中开发了三版人工智能系统。AlphaFold于2020年开发,用于预测蛋白质结构模型,其预测结果远超其他任何方法。由于AlphaFold的成功,深度学习在蛋白质结构领域展现了巨大潜力。为了实现这一过程,AlphaFold遵循两个步骤:首先,AlphaFold利用220个深层残差卷积块预测残基的距离和旋转分布;然后,基于第一步预测的特定势能进行梯度下降以确定蛋白质结构。由于其两步建模方式,AlphaFold失去了部分有价值的信息,特别是在长程残基对之间的依赖关系方面。

图片

此外,AlphaFold2通过两个主要组件——‘EvoFormer’和‘结构模块’实现了高精度预测。EvoFormer块采用了一种与多序列比对(MSA)交换信息的创新机制,使用了多个基于注意力的新组件。该领域的重大进展是直接推断包含空间和进化关系的配对表示。与AlphaFold1不同,结构模块使用不变点注意力直接预测3D坐标。AlphaFold1和AlphaFold2都在蛋白质结构预测方面取得了出色表现,但它们的预测能力得益于所使用的MSA数据的丰富性和准确性。

图片经过精心开发的AlphaFold3展示了在重建复杂生物分子组装结构(包括氨基酸、核酸、小分子等)方面的卓越能力,在结构生物学领域这是一个重要的突破,为科学家们提供了前所未有的关于生物分子复杂相互作用和架构的见解。作为AlphaFold2架构的一种改进,AlphaFold3仅使用四个块与MSA信息和配对表示交互,减少了对MSA的依赖。生成的人工智能模型基于这些学到的表示生成蛋白质结构模块。此外,AlphaFold3引入了一个扩散模块,该模块可以直接估计原始原子坐标,它与特定氨基酸框架和侧链的扭转角协同工作,省去了传统基于框架和角度表示所需的步骤,使得直接且全面地预测分子结构成为可能。在这个过程中,从最早期的呈现到当前版本,生物信息学基础模型的发展阶段被清晰地勾勒出来。

生物信息学基础模型在基因组学中的应用

图片

表1


使用Transformer解码DNA的语言,因其通过通用遗传密码解释DNA翻译成蛋白质的能力而受到关注。DNABERT通过使用Transformer捕捉了对基因组DNA序列的全局和可转移见解。利用Nucleotide Transformer,可以在基因组数据集上构建并预训练基础语言模型。在DNABERT-2中,通过修改字节对编码以提高计算效率,并采用多种策略解决输入长度限制问题。为了适应新任务,HyenaDNA利用更长的上下文长度和序列长度调度技术。从分子水平到基因组规模,Evo是一个长上下文基础模型,促进了预测性和生成性任务。VQDNA使用VQ-VAE基于数据模式重新定义了基因组标记化为一个整体系统。预训练的基础模型已在多物种数据集上进行训练,并用于预测启动子、增强子、转录因子结合位点和顺式调控元件。基因组学生物信息学基础模型如表1所示。生物序列的长序列长度在训练过程中提出了许多挑战,使得这些模型无法解决某些生物学问题。作为大规模序列建模的一部分,生物学和基因组学的进步迅速。Caduceus是首个双向长程DNA基础模型,展示了在长程模型领域优于前代的性能。

图片

图片


全基因组变异效应预测方面

DNA序列中的突变对于贡献物种多样性起着重要作用。全基因组关联研究(GWAS)提供了广泛物种的重要生物学见解。AI架构已经进化以适应基因组数据的复杂性和测量基因组可用的高维模式的细微差别。DeepSEA仅通过学习非编码变异对DNA序列的影响就超越了监督深度学习模型。过去十年中,CNN主导了DNA序列的深度学习模型。基因组预训练网络(GPN)通过在DNA序列上训练模型来研究全基因组变异的影响。与传统的GWAS方法不同,GPN在预测罕见变异的影响方面表现出色。包括DNABERT、DNABERT-2和Nucleotide Transformer在内的若干基础DNA序列语言模型也从DNA序列中预测变异。总的来说,这些进展增强了我们对DNA序列突变如何产生生物多样性的理解。

图片

DNA顺式调控区域预测

在基因表达调控中,顺式调控序列(包括增强子和启动子)发挥着关键作用,并设计组织特异性元素。为了理解它们的功能及其与疾病的关联,在DNA中识别这些序列是一个基本挑战。Enformer通过利用大感受野预测基因表达和启动子-增强子相互作用,以识别顺式调控区域并提供对其功能的宝贵见解。基于DNABERT的一种新的迁移学习方法iEnhancer-BERT使用创新的DNABERT算法促进增强子预测。与传统的微调方法不同,iEnhancer-BERT应用CNN层对来自Transformer编码器层的输出进行分类。因此,生物序列现在被视为计算建模的自然语言。此外,DeepSEED结合专家知识与学习方法设计了有效的合成启动子,适用于合成促进。

图片

DNA甲基化识别

DNA甲基化是一种基础生物学过程,它通过表观遗传方式调节基因表达。多种医学状况与此过程相关联,并且该过程也可作为元基因组分箱的标记。AI模型已经推进了我们对各种生物过程中DNA甲基化的理解。目前,iDNA-ABT、iDNA-ABF和ccsmeth是用于一系列甲基化预测的多功能预测工具,包括6-甲基腺嘌呤(6mA)、5-羟甲基胞嘧啶(5hmC)和4-甲基胞嘧啶(4mC)。在iDNA-ABT中,转导信息最大化(TIM)与自适应嵌入一起使用,但其检测DNA甲基化模式的潜力仍有待探索。iDNA-ABF采用多尺度架构而不是单一标记生成器。基于标记生成,BERT编码器能够提取多样化的嵌入以产生最终的进化输出。此外,ccsmeth使用纳米孔测序数据和PacBio CCS测序数据检测单倍型感知的甲基化,并利用5mC位点的对称性和聚集特性进行预测。

图片


生物信息学基础模型在转录组学中的应用

基于BERT的语言模型的发展,特别是针对表现出较低保守性的RNA序列进行优化的模型,促进了重要RNA基础模型的出现,如RNA-FM和RNA-MSM。RNAFM基于自监督学习预测2D/3D结构,捕捉多种结构信息,提供了对RNA序列特征的全面理解。RNA-MSM利用来自RNAcmap的同源序列,擅长将碱基配对概率和溶剂可及性映射到2D碱基配对概率。此外,最近由生成式AI技术提出的几个RNA生成模型,如RfamGen和GenerRNA也被提出。在RfamGen中,比对信息和共识二级结构数据被明确整合到深度生成模型中,以促进RNA家族序列的设计。GenerRNA是一个大规模模型,可用于RNA设计的自动化。使用预训练模型(PTMs),可以对各种RNA序列、结构和功能任务进行微调。转录组学生物信息学基础模型如表2所示。

图片

表2

RNA二级结构预测

在分子生物学中,RNA二级结构预测是一项重大挑战,需要改进结构预测模型并更好地理解RNA折叠。一个Transformer模型,包括标记和位置嵌入以及预训练任务,都是RNABERT的重要组成部分。RNABERT预测二级结构、分类RNA家族并对未表征的转录本进行注释,从而阐明RNA的结构特性。通过这种方式,不仅提高了我们对RNA结构的理解,也为进一步的功能研究提供了工具。这些进展为转录组学领域带来了新的视角和技术手段,推动了从序列到功能的全面解析。

图片


RNA剪接位点预测

真核生物依赖RNA剪接进行转录后的基因表达。通过开发名为SpliceBERT的预训练模型,研究人员在基于序列的RNA剪接建模方面取得了显著进展。除了捕捉RNA剪接动态,SpliceBERT还能够识别破坏剪接的变异体,并根据其对输出的影响进行优先排序。因此,研究人员能够深入了解影响RNA剪接的遗传变异,从而有效地识别和优先考虑潜在的重要变异。

图片

RNA修饰检测

生物过程依赖于转录后RNA的修饰。在基因表达调控中,N7-甲基鸟苷(m7G)和2'-O-甲基化(Nm)RNA修饰代表了多种细胞过程中广泛存在的转录后修饰。利用Transformer架构和堆叠集成技术,BERT-m7G是一个精确定位m7G位点的变革性计算工具,相比劳动密集型实验方法具有优势。BERT-m7G使我们能够揭示转录后修饰,并更好地理解m7G如何影响基因表达。Bert2Ome通过直接推断2'-O-甲基化修饰位点提供了对潜在生物学机制的深刻见解。Bert2Ome使用集成的基于BERT的模型和CNN来研究修饰与RNA序列内容之间的复杂关系。

图片


生物信息学基础模型在蛋白质组学中的应用

蛋白质在构建和维持生命的关键过程中扮演着核心角色。随着该领域的进步,蛋白质研究经历了数据积累的巨大增长。蛋白质的结构决定了它们与其他分子的相互作用方式及其功能。大型语言模型(LLMs)提供了一种从大量数据集中提取相关有价值信息的有效手段。ProteinBERT擅长预测主要的翻译后修饰,这归因于整合了GO注释预测任务。ProteinBERT在涵盖多种蛋白质属性的各种基准测试中超越了其他具有更大参数的深度学习模型。最早的将外部知识图谱整合进来的蛋白质预训练方法是OntoProtein。除了继承预训练蛋白质语言模型的强大能力外,知识嵌入对象还从知识图谱中提取生物学知识。

图片

表3

OntoProtein使用生成模型来简化蛋白质下游任务。蛋白质组学生物信息学基础模型如表3所示。作为评估蛋白质科学中深度学习模型的一部分,展示了蛋白质组学FMs的众多应用和性能特征,包括蛋白质结构分类和酶功能预测。此外,“蛋白质结构预测关键评估”(CASP)旨在客观测试来自世界各地研究小组的结构预测方法。CASP参与者可以通过分类各种主题来评估未来努力可以最有效地导向的方向。

图片


蛋白质结构预测

蛋白质的功能和相互作用与其结构密切相关。深度学习在预测蛋白质结构方面逐渐提高了预测准确性和计算速度。MSA Transformer通过多序列比对(MSA)构建了一个蛋白质语言模型,使用掩码语言模型(MLM)目标在许多蛋白质家族中建立模型。根据BERT的经验,在预测二级结构或接触时,似乎参数更多的模型更容易使用。ProtTrans似乎是唯一一个拥有比大多数其他模型更多参数的模型。此外,ProtTrans在每残基结构预测方面取得了巨大进展。TAPE建立了一套标准化的蛋白质迁移学习评估系统,任务集包括五个不同的问题,如蛋白质结构预测、荧光景观预测、稳定性景观预测和蛋白质设计。拥有高达150亿参数的ESM2训练了用于广泛蛋白质下游应用的Transformer蛋白质语言模型。由ESM2团队后来开发的蛋白质结构预测器ESMFold展示了几乎可与基于比对的方法相媲美的准确性,同时显著提高了处理速度。随着模型规模的扩大,有关原子级结构的见解开始显现。PeSTo是一种无参数几何深度学习方法,旨在识别与其他蛋白质结合的蛋白质。最近开发的AlphaFold3能够准确预测蛋白质复合物,而较少依赖共进化信息。

图片

蛋白质序列生成

蛋白质生成广泛应用于药物开发和蛋白质工程。为了形成稳定的三维结构,希望生成的序列具有良好的折叠性。此外,还期望所需蛋白质具有特定的功能特性,如酶活性。在蛋白质生成领域,大型语言模型(LLMs)的进步以及条件模型的引入显著推动了发展。ProtGPT2根据自然原则生成蛋白质氨基酸倾向,模仿了基于Transformer的语言模型的卓越成就。分析显示,ProtGPT2生成的蛋白质表现出与天然蛋白质相对应的几个球形特征,涉及紊乱和二级结构预测。ZymCTRL语言模型根据酶委员会的提示有条件地生成人工酶,生成的序列是球形、有序的,并远离已知蛋白质空间,且能执行预期功能。一种新算法ProGen将UniprotKB关键词整合到条件标签中,生成具有理想结构特性的蛋白质。

图片


蛋白质进化与突变检测

在生物进化过程中,蛋白质序列和结构会发生变化。为了在蛋白质中产生功能性多样性,进化和突变起着关键作用。有研究表明,蛋白质语言模型能够有效预测进化变化和突变。DeepSequence通过学习跨蛋白质家族的概率模型,在使用进化数据预测突变效应方面优于现有方法。它捕捉了生物数据中的保守性,并使用证据下界(Evidence Lower Bound)对突变进行评分。利用长短期记忆(LSTM)开发的新模型UniRep用于检测远源同源性和突变效应。EVOLVEpro在性能上超越了现有方法,在RNA生产、基因组编辑和抗体结合应用领域的六个蛋白质中实现了高达100倍的针对性能改进。这些发现强调了与零样本预测相比,少量样本主动学习在最小实验数据下的优势。

图片

生物信息学基础模型在药物发现中的应用

对于计算机辅助药物发现,专家知识算法被用于筛选药物分子、其先导化合物及其与目标分子的相互作用。SMILES-BERT提出了一种新的分子指纹生成方法,不同于基于知识的分子指纹输入。为了表示分子,基于BERT的模型对SMILES序列进行了编码。与依赖分子指纹的先前模型相比,这种方法在多个分子属性下游预测中产生了更优的结果。通过百度飞桨平台,XMOL使用预训练模型理解SMILES,微调下游分子分析任务,如预测分子属性、分析化学反应、预测药物-药物相互作用和优化分子。药物发现中的生物信息学基础模型如表4所示。

图片

为了评估药物FMs,开发了基于网络的ADMETlab 2.0系统,以增强早期药物相似性评价并加速药物发现。ADMET数据库包含288,967个条目,为用户提供四种功能,便于分析六种类型的药物相似性、预测31个ADMET终点,并执行系统评估及数据库/相似性搜索。ADMET从药物发现的角度评估了物理化学、药理以及ADME性质和毒性终点与毒物警示结构规则等多个方面,这些指标包括17个物理化学性质、13个药物化学性质、23个ADME性质和8个毒物警示结构规则。

图片

图片

图片

类药物分子性质预测

在药物发现中,预训练模型(PTMs)决定了下游任务中的分子性质,如吸收、分布、代谢、排泄和毒性(ADMET)及药代动力学(PK)。K-BERT通过在其预训练阶段采用三种不同的预训练任务区别于BERT,这不仅限于发现SMILES范式,而是为了理解其本质。Mole-BERT引入了掩码原子建模和三重掩码对比学习任务,这是一个基于图的预训练神经网络。通过这些任务,网络可以获得对分子图“语言”的全面理解。KPGT使用自监督学习为线图Transformer进行预训练,将分子图处理成分子线图,并利用分子指纹作为额外知识,从而在如分子性质预测等下游任务中提高了预测能力。随着对比学习的重要性日益增加,研究人员逐渐采用了大型模型+对比学习范式来训练分子性质预测模型。在MolCLR这种对比学习预训练架构中,一个分子图增强前后的数据被视为正样本,而不同分子图的数据则被视为负样本。MoleculesSTM构建了一个多模态分子文本预训练模型,具有两个分支用于分子预测,这减少了化学结构与文本描述之间的表示距离。

图片

类药物分子生成

虚拟筛选库通常只包含少量化合物,而不是全部类药物化学品。作为MolGPT的一部分,加入了额外的训练任务以促进条件预测。该模型不仅能生成创新且有效的分子,还能捕捉数据集内的特定统计特征。最近,研究人员将目标蛋白信息引入分子生成过程以识别潜在的目标分子。Pocket2Mol通过E(3)-等变生成模型捕获化学约束,使用具有E(3)-等变性的神经网络架构可以更精确地提取蛋白质口袋和分子片段。PMDM使用条件深度生成模型能够高效生成对特定蛋白质具有高亲和力的3D分子,系统采用双重扩散策略保留分子的几何特性,该策略捕捉原子间的局部和全局相互作用以及一个动态等变核。除了单一目标分子外,研究人员也逐渐研究多目标分子。POLYGON是一种深生成模型,能够使用编码器-解码器架构和强化学习策略设计新的多药理化合物,这些化合物可以同时抑制多个目标。

图片

药物-靶点相互作用识别

药物-靶点相互作用(DTI)为优化药物剂提供了宝贵指导。DrugBAN使用频繁连续子序列(FCS)挖掘提取高质量的目标和药物亚结构,然后构建双线性注意力网络框架以明确学习药物-靶点相互作用。为了提高对新型药物-靶点对的泛化能力,使用条件域对抗网络(CDAN)协调跨各种领域的相互作用表示。EIHGN使用四个独立的GNN从四种不同的原子相互作用中学习节点表示,以此将复合体建模为异质图,从而最小化在消息传递过程中掩盖非共价相互作用信息的风险。EIHGN还将亲和力预测值分解为目标和药物原子之间预测的非共价相互作用力之和。

图片


生物信息学基础模型在单细胞分析中的应用

单细胞RNA测序(scRNA-seq)技术为众多突破铺平了道路。单细胞语言模型可用于识别细胞状态、发现新的细胞类型、推断调控网络和整合多组学数据。scGPT提供了一个针对非顺序数据集定制的统一预训练流程。通过使用堆叠Transformer层和多头机制,scGPT能够进行通用目的的预训练以及特定应用的微调,使学习能够转移到下游任务中。为了从转录组推断缺失的单细胞蛋白质组,scTranslator提出了一种大型预训练生成模型,该模型源自自然语言处理和遗传中心法则。在scTranslator中,蛋白质丰度首先从配对的大规模数据中推断出来,然后从配对的单细胞数据中推断,最后作为Transformer模型从scRNA-seq数据集中推断。scButterfly通过双重对齐变分自动编码器和数据增强方案学习个体模态内的潜在因素以执行跨模态转换。scButterfly训练一个掩码变分自动编码器,然后将潜在表示跨模态对齐。scFoundation算法提出了称为读取深度感知(RDA)建模的新颖预训练方法。

图片

表5


Nicheformer是一种基于Transformer的方法,用于从解离的单细胞和转录组数据中学习细胞表征,适用于许多下游应用。CELLama创建包含基因表达和元数据的细胞数据嵌入句子。单细胞多组学分析中的生物信息学基础模型如表5所示。为了评估单细胞基础模型,scEval评估了超参数和LLM训练的影响,提供了单细胞LLMs及其局限性和可能未来发展的总结。几种单细胞LLMs在八个任务上用22个数据集进行了评估。

图片

scGPT

图片


细胞聚类

为了理解生物样本内细胞异质性的复杂图景,细胞聚类过程至关重要。为了学习用于聚类的细胞嵌入,scFoundation的编码器和解码器结构是基于Transformer的模型,并且只有未被掩码的基因才被输入到编码器中。MarsGT从由单细胞生成的多组学数据中推断并识别稀有细胞群。MarsGT在基因和细胞的异质图上构建了一个多头注意力机制。在scPROTEIN中,肽定量不确定性及其他数据问题通过深度图对比学习在一个统一框架中得到解决。利用scPROTEIN多功能的细胞嵌入可以执行多种下游任务。

图片

scFoundation


细胞类型注释

在对单细胞进行注释时,通常会给每个细胞或细胞群分配生物学标签,通常是细胞类型或细胞状态。随着大型语言模型(LLMs)在自然语言处理(NLP)和计算机视觉(CV)领域的显著成功,现在可以通过这些模型分析单细胞RNA测序数据来进行细胞类型注释。出现了几种使用语言模型注释scRNA-seq数据的计算工具,包括TOSICA和scBERT。TOSICA将来自GSEA的知识掩码融入全连接权重矩阵中,创建一种可解释的细胞类型注释方法。scBERT的预训练阶段旨在消除批次效应并通过全面理解基因-基因相互作用来提高泛化能力。在微调过程中,参考数据集影响模型参数,因为分类器被添加到了预训练模型(PTMs)中。因此,scBERT使得发现无偏见的长程相互作用和基于数据驱动的细胞类型注释成为可能。

图片


多组学整合

与基于单个组学数据的分析相比,整合各种组学技术提供了若干优势。由于其适应性、泛化能力和特征提取能力,大型模型是解决scMulti-omics数据特征差异、稀疏性和细胞异质性的宝贵工具。作为scMulti-omics整合任务的一部分,scGPT使用补充令牌集来标识不同的测序模式。Transformators在输出中包含模态令牌,无论是在特征层面还是细胞层面。这种有意的设计防止了Transformer突出显示与相同模态相关的特征,同时削弱了与其他模态相关的特征。DeepMAPS通过使用图Transformer将scMulti-omics数据整合并映射到生物网络中。由于DeepMAPS构建了一个包含基因和细胞节点的图,所有其他模式的特征都被映射到基因上。DeepMAPS中的Transformer利用局部和全局特征建立细胞与基因以及基因之间的关系。mvTCR创建了一个细胞级别的嵌入,可以轻松扩展到图谱级别的分析,并很好地融入标准分析流程。通过使用单独的编码器,mvTCR结合不同模态生成一个联合表示。SiGra通过使用图像增强的图Transformer揭示单细胞空间信息。通过多模态和转录组学,SiGra增强了数据质量并同时识别空间域。GLUE整合未配对的多组学数据并推断调控相互作用。GLUE通过利用先验生物学知识明确建模跨层调控相互作用。除了整合三重组学外,GLUE还可以处理调控推理和注释校正。MIDAS使用模块化的编码器网络和解码器网络整合和转移来自单细胞的多模态数据。

图片


生物信息学基础模型中的数据

在生物信息学中,基础模型(FMs)依赖于生物数据的质量,这些数据包括大量的多组学数据。表6展示了生物信息学FMs中常用的生物数据库。在基因组学中,《癌症基因组图谱》(TCGA)分析了超过20,000个癌症样本与正常样本匹配的数据,涵盖了33种不同的癌症类型;TargetFinder提供了一个用于识别或表征远端增强子基因目标的管道;ArrayExpress包含了高通量功能基因组学实验的数据。在转录组学中,《基因表达综合数据库》(GEO)存档了从微阵列和其他高通量方法得到的功能基因组学数据;《DNA元件百科全书》(ENCODE)是一个全面的人类基因组基本元素数据库,包括蛋白质和RNA以及控制细胞活动和基因表达的调控元件。

图片

表6

在蛋白质组学中,《通用蛋白质资源》(UniProt)包含全面的蛋白质序列和注释;《蛋白质数据库》(PDB)包含大分子的序列和2D/3D结构。在药物分子方面,ChEMBL是一个精心策划的具有药物样性质的生物活性分子数据库;ZINC是一个公开可访问的商业可用化合物数据库,专为虚拟筛选设计;PubChem是一个免费获取化学信息的集合。在单细胞数据中,《单细胞表达图谱》作为一个全面的单细胞基因表达数据库覆盖多种物种;《人类细胞图谱》旨在绘制人体内每种细胞类型的地图,从而创建一个人体细胞的三维图谱。


未来方向

作者的研究聚焦于生物信息学基础模型(FMs)的各种应用,这些模型能够准确模拟分子生物学的复杂细节。预训练架构捕捉与源数据相关的模式;微调策略分析任务数据以精确解决生物学问题。图3展示了生物信息学中FMs的全景。通过探索这些前沿技术,可以获得分子间动态相互作用的新见解。作者的最终目标是讨论与基础模型的可解释性及其大规模模型架构相关的挑战和机遇。

图片

图3生物信息学基础模型的分类与应用


预训练范式

人工智能中训练基础模型的新方法使得执行特定的下游任务成为可能,从而允许AI针对高度专业化的应用进行微调,即使可用的训练样本数量有限。目前,一些研究正在探索在生物信息学领域内将提示学习和对比学习应用于预训练模型,这需要进一步的发展。提示学习和对比学习已成为生物信息学中的关键技术,特别是在与预训练模型结合使用时,可以提高各种生物信息学任务中的模型性能和可解释性。KANO利用外部基本领域的知识增强分子对比学习和微调学习,同时探究微观原子关联,保持元素导向的知识图谱中的分子语义。在微调过程中,设计功能性提示以激发任务特定的知识。PromptProtein提供了一个基于提示引导训练的创新预训练和微调框架。通过提示引导的多任务预训练,它学会根据多个提示信号专注于不同的结构层次。提示微调模块为下游任务提供了按需灵活性,使它们能够利用各自级别的结构信息。这种方法不仅提高了模型对不同任务的适应性和表现力,同时也增强了对复杂生物信息学问题的理解和解析能力。

图片


评估框架

多个AI模型已经在大型数据集上进行了训练,并应用于下游应用。基础模型从其能力、技术原理到应用和社会影响,既提供了机遇也带来了风险。这些模型在众多任务中的规模和有效性促进了同质化。UltraEval利用模型、数据和指标这三个关键组件展示了一个轻量级、全面、模块化且高效的用户友好评估模型。一些研究还评估了包括蛋白质工程、药物设计和单细胞多组学数据分析在内的生物信息学研究领域的性能。scBackdoor被引入用于评估单细胞预训练模型的攻击成功率,这对单细胞研究,尤其是依赖开放数据的AI预训练模型构成了重大潜在威胁。

图片


模型可解释性

生物信息学在提供可解释的基础模型和获取逻辑证据方面也面临挑战。例如,在计算机辅助药物发现中包括对接、评分和筛选。为了生成一种药物分子,必须考虑诸如有效性、新颖性和与现有药物的相似性等特性。然而,现有方法缺乏关于实际化学或生物学实验验证的广泛研究以证明其效率。通过使用具有可解释性的知识图谱,基础模型可能更高效地解决复杂的生物学问题。因果推断的使用已被证明能够通过追踪变量间的因果关系提高NLP模型的预测准确性、公平性、鲁棒性和可解释性。CIMI因其改进的采样效率而能提供更加忠实和泛化的解释,特别适用于大规模预训练模型。

图片

幻觉检测

基础模型被用于构建如此多样化环境下的全面生物图谱。然而,从可推导的方法向多焦点框架过渡存在困难。例如,大型语言模型是广泛应用的工具,适用于广泛的生物数据集和应用。为了增进对细胞景观的理解,各种模型架构被协同放大以从未加工的数据中提取有意义的特征。此外,尽管LLMs能够推理并回答问题,但它们倾向于产生不实的结果,即无根据的回答。基础模型中的幻觉指的是生成偏离事实现实或包含虚构信息的内容。当前的幻觉检测技术缺乏同时具备高准确度、低延迟和低成本的特点。Luna经过微调以检测RAG中的幻觉,这使得语言模型可以整合外部知识检索机制以增强其能力。

图片


结论

未来人工智能的基础模型随着训练数据变得更为复杂而能够扩大规模。进一步修改这些模型可以在多种应用领域取得卓越表现。此外,通过将模型与自然语言处理中的LLMs同质化,企业已经取得了显著进展。由于这些模型能够理解和操作人类语言,因此它们具有革命性和变革性。高通量数据是这些生物信息学问题不可或缺的一部分:基因组学中的DNA序列、转录组学中的RNA序列、蛋白质组学中的蛋白质序列和结构、药物发现中的分子SMILES以及单细胞中的多组学数据。深度学习机制被集成以获得生物学洞察力,如CNN用于蛋白质3D结构特征,RNN用于时间序列单细胞RNA测序特征,Transformer用于生物序列特征,GNN用于分子拓扑特征。通过利用庞大的生物数据集,大规模模型得以预训练,并可用于多种任务(小样本、零样本或微调)。基础模型快速有效地解决了若干核心生物学问题及各种下游任务。


总结-概述-分析方法:

这篇综述论文讨论了基础模型(FMs)在生物信息学中的应用,强调了它们在解决该领域挑战方面的重要性。FMs是预训练于庞大数据库上的大规模AI系统,使其能够在各种下游任务中使用。论文将FMs分为四类:语言FMs、视觉FMs、图FMs和多模态FMs。综述全面概述了这些模型如何应用于生物信息学的不同领域,包括基因组学、转录组学、蛋白质组学、药物发现和单细胞分析。

以下是每种类型基础模型在生物信息学中的关键应用摘要:

语言FMs:

  • 基因组学: 如DNABERT和Nucleotide Transformer等语言模型用于分析DNA序列、预测调控元件和识别遗传变异。HyenaDNA和Evo用于长距离基因组序列建模。

  • 转录组学: 模型如RNA-FM、RNA-MSM、RNABERT和SpliceBERT被用于RNA结构预测、剪接位点识别和理解RNA修饰。

  • 蛋白质组学: ProteinBERT和OntoProtein用于预测蛋白质属性,包括翻译后修饰。ProtGPT2用于生成蛋白质序列。

  • 药物发现: SMILES-BERT应用于分子表示和性质预测。K-BERT用于理解SMILES范式的本质。

视觉FMs:

  • 基因组学: VQDNA用于基因组标记化和启动子检测。

  • 转录组学: RfamGen用于RNA家族序列生成。

  • 单细胞分析: scButterfly用于跨模态转换和数据增强。


图FMs:

  • 药物发现: 如Mole-BERT、KPGT和EIHGN等模型用于分子性质预测和药物-靶点相互作用识别。Pocket2Mol基于3D蛋白质口袋进行分子生成。

  • 单细胞分析: DeepMAPS、SiGra和MarsGT用于分析单细胞数据、识别细胞群集和整合多组学数据。

多模态FMs:

  • 基因组学: Enformer用于预测基因表达和启动子-增强子相互作用。

  • 蛋白质组学: AlphaFold3用于预测复杂生物分子组装的结构。

  • 药物发现: MoleculesSTM用于结构-文本检索和分子编辑。

  • 单细胞分析: GLUE用于多组学数据整合。scTranslator从转录组数据推断蛋白质丰度。scGPT是一个使用生成式AI针对单细胞多组学的基础模型。

此外,综述还探讨了生物信息学FMs的发展历程,从特定任务的模型到更通用的预训练模型,最后到多模态模型。论文进一步讨论了在训练这些FMs时使用的各种生物学数据库。论文强调了基础模型通过提供高效工具分析复杂生物数据和解决核心生物学问题来革新生物信息学的潜力,同时也指出了当前的局限性和未来的方向。


另外,综述深入研究了该领域的挑战和未来方向,包括:

  • 改进的预训练范式,如提示学习和对比学习。

  • 综合的模型评估框架。

  • 增强模型的可解释性和解释性。

  • FMs中幻觉检测的策略。


本综述论文的重点、结论和建议

研究的关键优势:

  • 全面概述: 论文提供了生物信息学中FMs的结构化和全面的回顾,将其分为语言模型、视觉模型、图模型和多模态模型。它涵盖了基因组学、转录组学、蛋白质组学、药物发现和单细胞分析中的广泛应用。

  • 强调进化: 综述追溯了生物信息学FMs从特定任务模型到通用预训练模型,最终发展为多模态模型的演变过程。这种历史视角有助于理解该领域的进展和成就。

  • 详细模型描述: 论文详细描述了各种FMs,包括它们的架构、训练策略及其应用。例如,它讨论了如DNABERT、AlphaFold和scGPT等模型。表格的加入提供了不同模型的快速概览。

  • 关注下游任务: 综述强调了FMs如何应用于生物信息学中的特定下游任务。它讨论了FMs在变异效应预测、药物-靶点相互作用识别和细胞类型注释等任务中的使用。

  • 整合生物学数据: 论文强调了使用生物学数据库训练FMs的重要性,为研究人员提供了一个宝贵的资源。它列出了主要的数据库,如TCGA、GEO、UniProt、ChEMBL和人类细胞图谱。

研究的结论:

  • 革命性影响: FMs通过提供高效工具来分析复杂的生物数据和解决核心生物学问题,革新了生物信息学。它们成功解决了与预训练框架、模型评估和可解释性相关的挑战。

  • 高准确性: FMs在各种下游任务中展示了高水平的准确性,在表示生物实体方面取得了显著成果。

  • 多功能工具: 论文得出结论,FMs是理解分子景观、人体生理学和分子生物学的多功能工具。它们可以使用监督和非监督学习模型进行训练。

  • 范式转变: 大规模预训练模型的出现导致了人工智能中的范式转变,FMs成为这一转变的核心组成部分。

  • 广泛适用性: FMs在许多领域都有广泛的适用性,包括基因组学、转录组学、蛋白质组学、药物发现和单细胞分析。

建议和未来方向:

  • 改进预训练范式: 论文建议进一步开发如提示学习和对比学习等预训练范式,以增强模型性能和可解释性。例如,提到了KANO和PromptProtein作为创新框架的例子。

  • 综合评估框架: 强调了稳健评估框架的需求,UltraEval作为一个轻量级、全面的模型评估工具的例子被提出。论文还提到在不同领域如蛋白质工程和单细胞多组学分析中对FMs的评估。

  • 增强模型可解释性: 综述强调了使FMs更具解释性和可解释性的重要性,推荐使用知识图谱和因果推断来提高模型理解和逻辑证据。

  • 幻觉检测: 作者指出需要开发有效的方法来检测FMs中的幻觉,因为模型可能会生成虚假或编造的结果。Luna作为一种检测检索增强生成(RAG)中幻觉的模型被提及。

  • 模型同质化: 综述注意到模型有向同质化发展的趋势,特别是大型语言模型(LLMs),并建议未来的研究应专注于平衡普遍性与专门化。

  • 进一步研究: 作者建议在模型架构、预训练以及FMs在特定生物学问题中的应用等领域需要进一步研究。

总之,这篇论文成功地突出了基础模型在生物信息学中的变革角色,并为未来研究奠定了基础。它还指出了当前模型的一些局限性,并概述了可能的未来研究领域,以进一步改进基础模型在生物信息学中的应用。


团队信息

Jianxin Wang Lab

[http://bioinformatics.csu.edu.cn/JXWang/index.html]

图片

参考文献:

  1. Fei Guo, Renchu Guan, Yaohang Li, Qi Liu, Xiaowo Wang, Can Yang, Jianxin Wang, Foundation models in bioinformatics, National Science Review, 2025;, nwaf028, https://doi.org/10.1093/nsr/nwaf028

本文转载自公众号MCBRLab

posted @ 2025-04-23 22:10  生物信息与育种  阅读(605)  评论(0)    收藏  举报