Nature Methods | 生物研究中语言模型之入门指南
语言模型在人工智能(AI)和计算生物学的许多领域中扮演着越来越重要的角色。在这篇入门指南中,我们讨论了语言模型(包括基于自然语言和基于生物序列的语言模型)在生物研究中的应用方式。这篇指南主要面向希望在其研究中应用这些前沿 AI 技术的生物学家。我们提供了关于如何将语言模型适应于生物学的最佳实践和关键资源。
语言模型是一种能够学习序列中复杂模式的人工智能,例如句子中的单词或蛋白质中的氨基酸。近年来,随着大规模、公开可访问的生成文本模型(如 ChatGPT)的发展,这些模型变得流行起来。由于这些模型是在大量异构序列集合上训练的,它们学会了灵活的模式,并且可以被适应来解决广泛的具体问题。例如,ChatGPT 被训练用于填补文本中缺失的单词,但这种训练过程使它能够对语言进行推理,并处理从总结论文到编写生物信息学代码的各种问题。此外,语言模型可以被适应来解决它们最初未被设计来解决的问题,并且在这些任务上超越了专门为此训练的模型。由于这种灵活性,语言模型通常是基础模型,能够支持广泛的下游应用。
语言模型不仅限于自然语言(例如英语),它们还可以处理生物语言,即由生物实体序列组成的语言,例如氨基酸或基因。这里讨论的语言模型都基于一种称为 Transformer 的架构,这是一种可以捕捉长序列模式的人工神经网络(见框图 1 的关键术语词汇表)。例如,它能够学习到论文摘要总结了后续文本的内容,并且能够学习到蛋白质序列中氨基酸之间的物理接触,即使它们相隔较远。这些模型通常是通过无监督、生成的方式进行训练的,这意味着训练序列没有特定的标签供模型预测(无监督),而是学习重新生成训练输入序列(生成)。通过这种生成过程,模型学会了数据形式的底层规则。为了将这些模型定制为其他目标,通常会对已经在一个数据集上训练过(预训练)的模型进行进一步训练(微调)。这个过程称为迁移学习,其中在较大数据集上的预训练为模型提供了对数据的基本理解,从而在微调时能够更高效地学习新目标。
语言模型可以应用于任何序列数据,无论序列的基本单元(称为标记)是句子中的单词还是蛋白质中的氨基酸。尽管句子和蛋白质是天然的序列,但其他类型的生物数据也可以被表述为序列。例如,单细胞基因表达数据通常不以序列形式表示,但可以通过创建一个基因按其在细胞中的 RNA 表达水平顺序排列的序列来将其表述为序列。通过将每个单细胞视为基因序列,生物语言模型可以将这些序列作为输入来模拟单细胞 RNA 表达水平之间的差异。当语言模型处理输入序列时,它会在内部计算一个嵌入,这是输入的数值表示,能够简洁地捕捉其语义或功能属性。预训练的语言模型可以通过三种常见方法用于解决许多研究问题:(1)直接预测,(2)嵌入分析和(3)迁移学习(图 1)。直接预测方法是最简单的;语言模型被给予某些输入,并直接用于进行预测。嵌入分析计算输入序列的嵌入,用于数据分析和可视化。在迁移学习方法中,会在与期望目标相关的新数据上进行额外训练。根据特定任务数据和计算资源的可用性,这可能涉及对原始语言模型进行微调,或者使用语言模型的嵌入来训练一个新模型(这也可以被视为一种微调形式)。
图 1 | 生物研究中语言模型的应用方法。 语言模型可以处理自然语言(例如英语)或生物语言(例如单细胞数据中的基因序列或蛋白质序列)。在这两种情况下,输入被分解为称为标记(例如单词或氨基酸)的单元,这些单元由模型处理。然后可以通过三种方式将语言模型适应于生物研究。在迁移学习方法中(左侧),可选地修改(例如扩展)预训练模型,然后进一步训练(微调)以解决其最初未被训练来解决的特定任务。在直接预测方法中(中间),模型直接应用于基于输入数据进行预测,例如预测句子中的下一个单词。在嵌入分析方法中(右侧),模型计算的输入表示(即嵌入)用于进行分析,例如降维和聚类。
术语表
|
术语
|
定义
|
| --- | --- |
|
语言模型
|
一种人工智能模型,基于训练数据学习预测序列中项目出现的可能性。
|
|
自然语言模型
|
在人类语言文本序列上训练的语言模型。
|
|
生物语言模型
|
在生物实体序列(例如氨基酸或基因)上训练的语言模型,这些实体被视为语言。
|
|
基础模型
|
可以灵活适应多种应用的人工智能模型。
|
|
Transformer
|
一种处理序列数据的模型,使用一种称为注意力的机制动态权衡输入数据不同部分的重要性。
|
|
标记
|
序列的基本单元,例如单词、氨基酸或基因,作为语言模型的基本输入单元。
|
|
嵌入
|
模型学习的输入的数值表示(一组数字),捕捉其语义或功能属性。
|
|
迁移学习
|
一种机器学习方法,其中在一项任务上训练的模型被适应于执行不同的但相关的任务,通常需要较少的数据和训练时间。
|
|
预训练
|
迁移学习的第一步,机器学习模型在大数据集上训练以学习一般特征。
|
|
微调
|
迁移学习的第二步,通过在通常较小且特定于任务的数据集上训练,将预训练模型适应于特定任务。这可能涉及进一步训练原始模型,或者在原始模型生成的嵌入上训练一个新模型。
|
|
多模态模型
|
可以处理和整合来自多种类型输入数据(例如文本和图像)信息的模型。
|
|
生成模型
|
一种被训练生成与其训练数据相似的新数据的模型。
|
|
无监督学习
|
一种机器学习方法,从没有明确标签的数据集中学习,通常用于在数据中发现模式或结构。
|
|
幻觉
|
语言模型生成看似合理但事实上错误或不一致的输出。
|
|
降维
|
一种减少高维数据特征数量的技术,同时保留其基本结构。它通常用于将模型嵌入减少到二维以便于可视化。
|
|
掩码
|
一种特殊标记,用于替换输入序列的一部分,模型基于周围上下文学习对其进行预测。
|
自然语言模型
自然语言模型简介
生物学本质上依赖于物理实体的特性——蛋白质、基因和细胞——但我们对这一领域的理解是通过科学论文、教科书、网页等自然语言形式记录的。因此,越来越多的研究者开始利用自然语言模型,帮助生物学家轻松获取这些文本资源中包含的大量生物信息。此外,自然语言模型还可以结合图像或基因序列等其他模态的数据,形成多模态模型,从而为各种生物实体提供更深入的见解。以下,我们将探讨自然语言模型在生物研究中的应用,主要关注直接预测方法。
通用与专业自然语言模型
自然语言模型可以作为通用模型进行训练(例如 ChatGPT 或 Claude),这些模型在广泛的文本语料库上进行训练,包括来自生物医学领域的文本(如 PubMed)。它们也可以被设计为专业模型(例如 BioBERT 或 Med-PaLM 2),专门针对生物医学文本进行训练或微调。目前,通用模型在生物医学任务中表现出色,例如在回答医学考试问题方面,甚至超越了专业模型,这主要归功于它们广泛的知识储备。
自然语言模型用于理解生物文献
自然语言模型的一个主要优势在于其能够跨越广泛的生物文献进行推理,并将信息提炼成易于理解的回应。例如,如果研究人员遇到一个不熟悉的技术概念(例如多重序列比对),他们可以要求语言模型用简洁的段落解释这一概念,而无需花费时间查阅参考资料。此外,研究人员可以根据自己的背景调整输入,以获得针对其需求的定制化回答(例如,“向一个具有基础生物学背景的人解释多重序列比对”)。除了总结生物概念外,自然语言模型还可以帮助研究人员快速理解新的科学内容。例如,科学家可以向语言模型提供一篇新科学论文的链接,并要求模型总结其内容或回答有关其方法的具体技术问题(见图 2)。自然语言模型甚至可以根据现有研究文献提出新的生物医学研究想法(例如,新的利用人工智能处理多重序列比对的方法)。尽管自然语言模型是理解生物文献的强大工具,但它们的一个众所周知的局限性是倾向于“幻觉”,即生成听起来合理但包含事实错误的文本。此外,这些模型可能不会批判性地评估它们处理的内容,可能会反映作者的解释,而不会质疑这些解释是否得到了数据的支持。因此,验证自然语言模型输出的准确性,并批判性地评估模型得出的任何结论至关重要。
自然语言模型用于软件交互
除了理解科学文献外,自然语言模型还可以通过帮助科学家与软件交互来加速研究,包括编写和调试代码。自然语言模型对生物信息学分析具有丰富的知识,因此可以协助研究人员编写用于数据处理、结果分析、绘图等的代码。这些模型尤其适用于研究人员不熟悉特定领域软件包的情况(例如用于单细胞分析的 Scanpy),因为模型不仅知道这些软件包何时适用,还知道如何与每个软件包的各个组件进行交互(见图 2)。自然语言模型也是出色的调试工具,可以提供错误代码和/或错误信息,并要求模型编写修正后的代码。此外,这些模型可以为通常需要专业知识才能使用的软件工具提供自然语言接口。例如,ChemCrow 允许用户用自然语言提出问题(例如“设计一个可溶性分子”),并修改用户的查询,以便 ChatGPT 运行特定于化学的软件工具(例如分子合成规划)。这种能力使得更广泛的科学界能够使用这些工具。
图 2 | 自然语言模型在生物研究中的示例应用。
在与语言模型的对话示例中,用户向语言模型提问(绿色文本框),语言模型则给出回答(蓝色文本框或白色代码片段)。在上半部分,用户询问有关一篇科学论文的信息,语言模型通过查找、阅读并总结该论文来回答。在下半部分,用户请求一段用于生物信息学分析的示例代码,语言模型提供了可以运行以生成数据可视化分析的 Python 代码。上半部分的示例由 ChatGPT 的 GPT-4 模型生成,下半部分的示例由 Claude 3 生成(经过轻微编辑以简化内容)。
生物语言模型
与自然语言模型生成文本不同,生物语言模型是基于生物数据序列进行训练的(例如氨基酸序列)。我们探讨两种强大的生物语言模型:蛋白质语言模型和单细胞语言模型。虽然我们主要关注这两个例子,但生物语言模型的应用范围远不止这些,任何可以表示为序列的生物实体(例如 DNA)都可以应用此类模型。
蛋白质语言模型
为什么大规模预训练是有用的?蛋白质语言模型在大规模蛋白质序列数据集上进行预训练,可以学习到捕捉蛋白质进化约束和关键特性的表示。通过对这些模型在较小的标记数据集上进行微调,可以准确预测下游任务,例如蛋白质的稳定性、相互作用,甚至设计具有特定结构的序列。
蛋白质语言模型示例:ESM-2
ESM-2 是一种基于 Transformer 神经网络的蛋白质语言模型,它通过预测周围上下文中的随机掩码氨基酸来训练,涵盖了超过 2.5 亿个蛋白质序列。在训练过程中,每个序列中随机子集的氨基酸被替换为假的“掩码”氨基酸,模型的任务是预测被掩码的原始氨基酸。通过学习准确预测哪些氨基酸适合给定的序列上下文,模型能够掌握蛋白质结构和功能的模式与约束。正如自然语言模型种类繁多一样,也存在许多不同配方训练的蛋白质语言模型。例如,一些蛋白质语言模型可能专注于特定蛋白质家族的数据进行训练,或者它们可能按顺序预测氨基酸,类似于自然语言模型,而不是随机掩码氨基酸。
应用:直接预测
这些模型可以直接用于预测每个氨基酸在给定位置出现的概率。由于训练数据涵盖了已知功能蛋白质序列的全谱,这些模型有效地学习了蛋白质进化的模式。在没有实验测量突变影响的情况下,模型可以隐式地学习哪些突变对蛋白质功能有害,因为这些突变在进化过程中观察到的突变中被认为不太可能发生。因此,这些预测可以直接用来估计蛋白质编码突变的影响。通过在给定位置特别掩码野生型氨基酸,并要求模型根据其余序列推断掩码位置,可以得到突变的可能性。如果根据语言模型,突变的可能性低于野生型氨基酸,则表明该突变可能有害。基于模型可能性评估突变致病性的实验研究已经验证了这些估计。
将蛋白质序列建模为语言的一个好处是,这些序列不需要预先比对或注释;其他方法需要进化上比对的蛋白质序列来预测突变的影响。语言模型对蛋白质序列可能性的估计还可以用来估计蛋白质序列是否可能形成功能性结构,这使得蛋白质语言模型能够评估和设计新序列。
应用:嵌入分析
除了输出结果外,蛋白质语言模型还提供了蛋白质的有用嵌入。具体来说,当一个蛋白质序列通过模型时,模型对每个氨基酸的内部表示(嵌入)可以被提取出来。这些氨基酸的嵌入可以单独使用,或者组合成一个单一的蛋白质表示。例如,先前的研究发现,对蛋白质序列嵌入进行聚类可以识别同源蛋白质。然后可以根据每个蛋白质中各个氨基酸嵌入之间的相似性,将这些同源蛋白质构建成多序列比对。
应用:迁移学习
从这些模型中学习到的表示可以用于解决更具体的任务。由于对蛋白质语言模型进行微调可能成本较高,许多应用使用模型的嵌入作为输入,训练另一个更小的模型来完成下游任务。例如,这些嵌入已被用于预测蛋白质稳定性、病毒抗原突变的免疫逃逸,以及使用少量标记数据预测错义变异的致病性。此外,也有一些新的、更高效的微调技术,使得计算资源较少的研究人员能够完全微调大型蛋白质语言模型。
交互示例
为了展示蛋白质语言模型如何应用于各种下游任务,我们提供了一个交互式笔记本,其中包含使用 ESM-2 进行直接预测、嵌入分析和迁移学习的示例,这些示例可以在浏览器中通过 Google Colab 运行:链接。
蛋白质结构模型
尽管蛋白质结构预测模型(如 AlphaFold2 和 ESMFold)并非本文的重点,但值得一提的是,将结构信息与蛋白质序列结合来训练模型(如蛋白质结构预测模型中所做的)可以改善蛋白质表示,从而更好地应用于各种下游任务。与语言模型一样,蛋白质结构预测模型也通过直接预测、嵌入分析和迁移学习被广泛应用于多种下游应用。
单细胞语言模型
为什么大规模预训练是有用的?单细胞基因表达数据提供了对单个细胞状态和功能的见解,但其高维度使得数据解释变得具有挑战性。最近开发的人工智能方法有助于分析这些复杂的数据。随着公开可用的单细胞基因表达数据的增长,语言模型可以在跨越多种细胞类型、组织、生物体和实验条件的数百万转录组上进行训练。这些模型可以泛化到新的数据集,并可以针对各种下游任务进行微调,包括细胞类型注释和批次校正。
单细胞语言模型示例:Geneformer
Geneformer 是一种单细胞语言模型,它具有 Transformer 架构,旨在为许多下游应用提供基因和细胞的表示。Geneformer 将每个细胞表示为细胞中表达量最高的 2048 个基因的列表,按 RNA 表达水平排序。与之前描述的蛋白质语言模型类似,Geneformer 的训练过程是通过掩码部分基因并训练模型预测缺失的基因。为了正确预测按表达水平顺序排列的缺失基因,模型必须理解不同基因表达水平之间的相互作用,并隐式学习细胞类型特异性的模式和上下文。Geneformer 在涵盖 40 种组织类型的 3000 万个单细胞转录组上进行训练,这有助于它学习多样化的表达模式。尽管 Geneformer 关注的是每个基因的相对表达水平,但其他单细胞语言模型使用了不同的公式。例如,单细胞语言模型 scGPT 是在定量表达值上进行预训练的,从而支持略有不同的下游应用。scGPT 还可以包括实验元数据,如模式、批次和扰动条件。
应用:直接预测
单细胞语言模型的直接输出可以支持多种创造性的计算机模拟实验。该模型可以通过获取单个细胞中原基因按表达量排序的列表,修改基因的顺序,并量化这种变化对输出的影响,从而估算基因扰动对细胞的影响。例如,Geneformer 通过人工将 POU5F1、SOX2、KLF4 和 MYC 添加到细胞基因排名的顶部,模拟成纤维细胞的重编程,从而在计算上将细胞推向诱导多能干细胞状态。同样,单细胞语言模型可以通过人工从细胞的基因排名列表中删除基因,并检查对细胞嵌入的影响,来预测细胞对基因敲除的敏感性。
应用:嵌入分析
单细胞语言模型包含每个基因的嵌入,这些嵌入可以组合(例如,取平均值)以创建每个细胞的单一表示。这些细胞嵌入可用于聚类、可视化和细胞类型标记。由于训练数据的多样性和数量,这些模型可以在保持生物学变异性的同时隐式减少批次效应,使它们能够从包含多个实验批次的数据集中识别出细微的细胞亚型。
应用:迁移学习
尽管可以从这些嵌入中产生有意义的聚类(如细胞类型),但模型也可以针对预测单个细胞的属性进行微调。例如,单细胞语言模型可以针对整合跨实验条件的数据并预测细胞类型标签和细胞状态进行微调。它们甚至可以支持基因的多模态表示。例如,scGPT 可以微调以包括染色质可及性和蛋白质丰度,与基因表达水平一起,从而实现跨模态的数据集整合。
生物学中的多模态语言模型
多模态模型可以跨越多种数据模态进行推理,例如文本和图像,从而赋予这些模型解决涉及多种数据类型的复杂任务的能力。例如,病理学语言-图像预训练模型(PLIP)在 Twitter 数据上进行训练,能够将病理图像与其标题匹配,使用户能够为给定的图像生成标题,或者根据文本描述查找图像。类似地,Med-PaLM 多模态模型经过训练,可以根据生物医学图像回答问题,而 MolT5 则可以根据分子结构用自然语言描述分子,包括其潜在的生物学功能。只要有足够多的多模态数据点示例,研究人员就可以训练用于其他类型生物数据的多模态模型。自然语言模型也可以在没有额外训练的情况下应用于多模态场景,通过将生物文本的固定语言模型嵌入与来自其他领域的数据相结合。GenePT 为单细胞数据提供了一个示例。GenePT 利用语言模型的隐含基因组知识来嵌入细胞。具体来说,GenePT 使用 ChatGPT 嵌入 NCBI 中基因的文本描述,然后通过将基于文本的基因嵌入按单细胞表达加权平均,创建单细胞嵌入。在某些应用中,这些来自自然语言模型的嵌入与生物语言模型(如 Geneformer)的嵌入相匹配或表现更好。类似的想法也可以应用于生物学的其他领域,将固定的语言模型嵌入与另一种模态的数据或模型相结合,无需额外训练。
使用语言模型进行生物研究的最佳实践
自然语言和生物语言模型在生物研究中具有广泛的应用。我们讨论了三种将这些模型应用于下游研究问题的方法:直接预测、嵌入分析和迁移学习。最佳方法取决于研究问题本身,以及可用的数据和计算资源。图 3 展示了一个简单的流程图,总结了如何确定使用语言模型的主要决策点。尽管这些规则并非绝对,但可以帮助指导这一过程。
图 3 | 选择适应语言模型的正确方法。 确定使用语言模型的最佳方式的主要决策流程。语言模型可以通过直接预测、嵌入分析或迁移学习来适应生物研究。对于数据探索嵌入分析方法可以根据语言模型的嵌入对数据进行可视化。对于预测适用的方法取决于新问题的数据和目标。如果新问题的数据和目标与原始训练目标一致,则可以直接使用直接预测方法,可能需要根据目标对输入模型进行调整以校准模型的预测。如果新问题与原始目标不完全匹配,则可以使用迁移学习。这涉及对原始模型进行微调,或者使用语言模型的嵌入作为输入来训练一个新的(通常是小型)模型。对原始模型进行微调通常更强大,但需要比在嵌入上训练新模型更多的数据和计算资源。
首先需要确定研究问题的目标。如果目标是数据探索,那么可以使用嵌入分析方法,结合降维和聚类等技术来揭示数据的结构。然而,如果目标是从数据中进行预测,那么直接预测和迁移学习方法通常更有用。如果问题与模型基于其训练数据和目标的固有能力相匹配,那么直接预测方法是合适的,可能需要根据目标调整输入。如果项目目标与模型的能力存在显著偏差,或者有更具体于感兴趣任务的数据可用,那么迁移学习可能更有用。当有足够的数据和计算资源时,最佳方法可能是对语言模型的全部或部分进行微调。然而,如果数据或计算资源有限,另一种选择是使用语言模型计算新数据点的嵌入,并将这些嵌入作为输入来训练一个单独的、通常是更小的模型。此外,有些模型仅以网页界面或应用程序编程接口(API)的形式提供,这可能限制它们只能用于直接预测。其他具有开源代码和训练模型参数的模型可以用于嵌入分析或迁移学习。语言模型可以通过多种机制访问和适应。例如,有些模型具有用户友好的网页界面,可以在其中进行预测。在其他情况下,可以从 Hugging Face 或 GitHub 下载代码和训练模型。有些模型还附带了 Jupyter 笔记本或 Google Colab 笔记本,展示如何使用预训练模型进行各种应用。当不存在这样的笔记本时,包含模型代码的 GitHub 仓库通常会有文档或示例代码可供参考。
生物语言模型资源
表 1 | 生物语言模型资源
|
名称
|
介绍
|
获取链接
|
使用方式
|
| --- | --- | --- | --- |
|
ChatGPT
|
自然语言(通用)
|
|
在 chat.openai.com 与模型对话,或按照文档通过 API 进行编程查询。
|
|
BioBERT
|
自然语言(生物医学)
|
https://github.com/dmis-lab/biobert
|
提供不同大小的预训练模型,以及用于微调 BioBERT 的代码。
|
|
Med-PaLM 2
|
自然语言(生物医学)
|
https://cloud.google.com/vertex-ai/generative-ai/docs/medlm/overview
|
作为 Google Vertex AI 平台的一部分,仅对特定客户开放。
|
|
ESM
|
蛋白质语言
|
https://github.com/facebookresearch/esm
|
提供模型代码、预训练模型和教程。
|
|
ProGen
|
蛋白质语言
|
https://github.com/salesforce/progen/tree/main
|
提供预训练模型和用于预测的代码。
|
|
Geneformer
|
单细胞语言
|
https://huggingface.co/ctheodoris/Geneformer
|
通过 Hugging Face 提供训练好的模型,附带示例代码。
|
|
scGPT
|
单细胞语言
|
https://github.com/bowang-lab/scGPT
|
提供预训练模型和带有细胞注释等功能的网站。
|
|
GenePT
|
多模态:自然语言和单细胞基因表达
|
https://github.com/yiqunchen/GenePT
|
提供预计算的基因嵌入和示例教程的笔记本。
|
|
PLIP
|
多模态:自然语言和病理图像
|
https://huggingface.co/spaces/vinid/webplip
|
提供训练数据、预训练模型和代码。
|
|
Hugging Face
|
多种语言模型类型
|
|
提供多种训练好的机器学习模型,通过搜索特定术语(如“蛋白质”)查找特定领域的模型。
|
使用语言模型进行生物研究的注意事项
尽管语言模型非常强大,但用户需要注意它们的重要局限性。首先,语言模型仍然无法完美解决许多生物学问题,即使是它们最初被训练来解决的问题。这可能是由于模型本身的限制,它们可能没有足够的能力来学习训练数据中的所有模式,也可能是由于训练数据的限制。训练数据可能过时或存在噪声,并且可能存在某些类型数据的缺失。例如,自然语言模型只包含其训练数据中的生物学知识,因此它们将不知道训练后发现的新成果。蛋白质语言模型通常仅在标准氨基酸上进行训练,因此无法反映输入表示中的任何翻译后修饰的重要性。单细胞表达数据可能具有噪声,而资金优先级可能会使某些组织类型和疾病状态的数据量偏向于特定方向,这些因素都可能影响模型的性能。此外,即使在特定生物学应用中经过定制,某些方法有时仍然可以超越生物语言模型,特别是当先验知识可以指导模型设计时。例如,包含蛋白质结构信息的方法已被证明比仅使用蛋白质序列训练的语言模型表现更好。最后,评估适应其他任务的语言模型的性能也需要谨慎。语言模型是在大量数据上训练的,这些数据可能并未公开共享,因此很难确保语言模型的训练数据与下游任务的测试数据之间没有数据泄露。
结论
这篇入门指南展示了如何使用语言模型(包括像 ChatGPT 这样的自然语言模型和像 ESM-2 和 Geneformer 这样的生物语言模型)来推进生物研究。这些模型通过直接预测、嵌入分析和迁移学习促进了广泛的生物学应用。尽管语言模型可以指导假设生成并帮助解释结果,但它们也会犯错误,还不能取代实验验证。语言模型还需要大量的数据进行训练,目前限制了它们在生物学中的使用范围,仅限于拥有大型现有数据集的领域。随着更多数据的生成和公开共享,我们预计语言模型将在生物学的更多领域产生影响。
代码
我们提供的用于蛋白质语言模型的交互式示例代码可以在 Google Colab:https://colab.research.google.com/drive/1zIIRGeqpXvKyz1oynHsyLYRxHHiIbrV5?usp=sharing 上运行。此外,相同的代码及其相关数据也可以在 GitHub:https://github.com/swansonk14/language_models_biology 上找到。
若要获取PDF原文,请在公众号后台回复:NM。
点击下方链查看研修通知
**(2025年教师与科研人员必修课)
**
线上培训:课程网上同步直播(课程前1天发放直播码和链接)
报名咨询方式:
1. 加微信(MiyuanBiotech)咨询,加微信注明“高级研修咨询”);
2. 长按下方二维码填写预报名信息,专属老师会与您联系提供详细咨询。
本文来自博客园,作者:生物信息与育种,转载请注明原文链接:https://www.cnblogs.com/miyuanbiotech/p/18930047。若要及时了解动态信息,请关注同名微信公众号:生物信息与育种。