首个多模态生物序列对话模型|ChatNT|Agent

导语

在生命科学和人工智能交叉领域,近年出现了大量针对基因组序列的AI模型,例如用于预测基因调控元件、表观遗传标记、RNA结构和蛋白质功能的深度学习模型。然而,这些模型往往各自为战,每种任务需要单独训练特定模型,难以在不同任务间迁移通用知识。更大的限制在于,大多数基因组AI工具对终端用户并不友好:它们需要专业的编程或命令行操作,不具备类似ChatGPT那样的对话交互能力。这导致绝大多数生物学研究者无法轻易利用这些模型成果于实际科研。

ChatNT(Chat Nucleotide Transformer)的出现,有望改变这一局面。ChatNT由InstaDeep等机构提出,是首个可以处理DNA、RNA和蛋白质多模态生物序列任务的通用对话式AI模型。简而言之,ChatNT试图成为生物信息学领域的“ChatGPT”,让研究者能够用英文指令直接询问复杂的基因组问题,由模型给出解析和预测结果。ChatNT 使用了目前最先进的生物序列编码技术和大型语言模型,将生物序列任务转化为对话问答问题来求解。在一个模型中,ChatNT就实现了对数十种基因组学任务的“一专多能”,不仅打破了以往每任务一个模型的桎梏,还首次使生物序列AI模型具有了多轮对话、可解释的特点。据论文报道,ChatNT 在经典Nucleotide Transformer基准上达到了新的SOTA(state-of-the-art,最新最优)性能,同时在研究者新构建的27项复杂生物任务上也表现不俗,可媲美各领域的专用模型。更令人兴奋的是,ChatNT 可以针对用户的英文生物学问题给出自然语言回答,并附带模型对自身预测置信度的校准和对序列中关键生物学特征的解释。这些创新使ChatNT成为向通用生物智能体迈出的重要一步,也为将来构建懂生物学原理、又易于使用的AI助手提供了范例。

ChatNT的模型架构详解

传统的基因组模型往往采用纯序列模型(如Transformer)对DNA/RNA序列编码,再输出一个分类或预测结果。然而ChatNT突破性地融合了生物序列模型与大型语言模型,形成了一个多模态架构,包括三个核心组件:

• DNA序列编码器:ChatNT采用了Nucleotide Transformer v2模型作为DNA片段编码器。该编码器将DNA序列按6个碱基为一组进行分割,以类似词嵌入的方式将每个片段映射为高维向量表示。这些表示捕获了序列中的生物学模式,例如调控元件的保守序列、核苷酸组合特征等

• 英语语言解码器:ChatNT的“回答引擎”是一个冻结的7-billion参数英文解码器模型 Vicuna-7B(源自LLaMA,经指令微调而成)。该语言模型负责读取问题和DNA序列的信息,并以自然语言生成答案。由于使用了预训练的大型语言模型,ChatNT天然具备对话和理解英文指令的能力,并可以控制回答的语气和格式。这一解码器确保模型回答的是可读的英文句子,而非晦涩的数值编码。

Perceiver投影模块(英语感知投影,English-aware projection):这是ChatNT架构的关键创新模块,用于桥接DNA编码器和英文解码器。传统的Perceiver压缩器在多模态模型中用于从大量输入特征中选取固定长度的表示向量,但它不考虑具体的问题语境。ChatNT团队发现,如果投影层在没有考虑提问内容的情况下对DNA序列生成一组固定向量,那么面对多样化任务时可能出现信息瓶颈——即相同的序列表示需要同时适用于所有任务,难以兼顾不同任务关注的特定序列特征。为解决这一瓶颈,ChatNT引入了“英语感知”的改进策略:在Perceiver投影中增加跨模态注意力(cross-attention),让投影模块的查询向量能够“看到”用户提出的英文问题。换言之,投影层会根据提问内容动态挑选和融合DNA编码向量中与当前问题最相关的部分,从而生成上下文相关的序列表示。之后,这些富含针对性信息的DNA表示将被嵌入到英文解码器的输入中,指导语言模型生成回答

图1:ChatNT模型架构及任务构成示意图|其中,a) 展示了模型训练所涵盖的不同类别下游任务(例如启动子识别、剪接位点预测、表观遗传修饰预测等)的示意插图;b) 展示了ChatNT指令数据集中,每种任务所含的英文文本tokens和DNA序列tokens数量统计(英文指令采用LLaMA字典分词,DNA序列采用NTv2模型的6-mer分词);c) 展示了ChatNT多模态多任务对话模型的工作流程:用户以自然语言提出问题,并提供一个或多个DNA序列(如FASTA文件,文中以“@myseq.fna”标识序列)作为输入。DNA序列经编码器转化为表示向量,结合英语感知投影模块提取的关键信息后,与英文问题的token一起送入语言模型解码器。经过预训练的Vicuna语言模型对问题和序列信息进行推理,最终以英文句子生成答案。由于引入了基于问题语境的Perceiver投影,ChatNT能够针对不同任务动态利用DNA序列中的相关特征,从而减轻信息瓶颈,提高多任务学习能力。

图2:ChatNT在多任务基准上的总体性能对比|图2的a)部分比较了ChatNT与若干现有基因组基础模型在Nucleotide Transformer基准18项任务上的平均表现,评价指标采用Matthew相关系数(MCC)的均值 ± 标准误。可以看到,ChatNT(红色柱)相较以往13个基因组模型的表现都有明显提升;另外还特别比较了移除了“英语感知投影”模块的ChatNT变体(蓝色柱),结果其性能显著下降(平均MCC降低了约0.08),几乎与之前最好的Nucleotide Transformer v2模型相当。这一对比证明了英语感知投影模块的必要性:考虑问题语境来投影序列特征,确实让模型提取到更有效的信息,从而提升了整体预测性能。图2的b)部分是雷达图,逐项展示了ChatNT对NT基准18个任务的成绩(红线),相对于每个任务各自专门微调的NTv2模型(灰线)的差异。可以看到,ChatNT在多数任务上都达到或超过了专用模型的表现,但作为统一模型却能同时解决所有任务且直接用英语回答,这是以往单任务模型无法实现的突破。 值得一提的是,ChatNT采用模块化设计,DNA编码器和英文解码器彼此独立,这意味着可以随着技术发展而无缝替换更先进的序列编码模型或语言模型,而无需改变整体架构。例如,将来若出现更强大的DNA表征模型或中文大型语言模型,都有望集成到ChatNT中,进一步提高其性能或拓展其适用范围。

ChatNT的训练与任务设置

如何将DNA任务转化为英文指令任务? ChatNT的训练过程实际上是一个指令微调(instruction-tuning)的过程,即将各种基因组学预测任务转换成类似问答对话的形式来训练模型。研究者首先收集并整合了多个来源的基因组任务数据,包括之前Nucleotide Transformer基准中的任务和新加入的更具生物学意义的任务,共覆盖DNA、RNA和蛋白质领域的27项任务。这些任务涉及不同物种(人类、小鼠、植物、酵母、果蝇等)和多种生物过程(如基因调控、转录后调控、蛋白稳定性等)。为了让ChatNT能“一次学会所有任务”,作者将每个任务的数据都转换成统一的英文问答格式:即为每个序列样本设计一个用英文描述的“用户问题”,让模型输出相应的“助手答案”。训练时,模型读取“问题”和对应的DNA序列,尝试生成正确的答案文本,与已知答案对比计算损失。通过这样的大规模多任务指令训练,ChatNT学会了在自然语言提问的引导下,去分析DNA序列并给出相应预测

具体来说,对于每条训练样本,研究者编写了模板化的英文提示。例如,对于DNA序列的分类任务,问题可能是:“请确定输入的人类DNA序列@myseq.fna是否包含启动子元件?如果有,请判断属于强启动子还是弱启动子。”;对于回归任务,问题可能是:“给定这段RNA序列@myseq.fna,请预测其降解速率,范围从-5到5。”类似地,不同任务都有相应的问句。模型需要根据序列内容输出正确的答案,如“Yes, it has a strong promoter.”或者数值“1.83”等。这样一来,原本枯燥的序列预测任务被包装成了直观的QA问题,而模型学习的也是如何用英语阐述生物学预测结果的能力。

ChatNT所支持的任务类型极为广泛,包括二分类(如DNA序列中是否存在特定元件)、多标签分类(如对一个序列同时判定多个功能标签)以及数值回归(如预测某个生物学属性的数值)三大类。以论文中的任务为例:

• 二分类任务:例如启动子识别(判断序列是否为启动子)、剪接位点预测(判断序列片段能否作为splicing的供体或受体位点)、DNA甲基化(预测某序列区域是否发生甲基化)等。这类任务的答案通常是“YES/NO”或阳性/阴性,用英文表述即“Yes, …”或“No, …”。

• 多标签分类任务:例如增强子分类任务中,一个序列可能被分为多个类型(在人类细胞中是强或弱增强子,在植物中可能有不同增强子类型);又或者基因表达调控相关任务,需要对多个可能的调控因子标签进行预测。ChatNT可以通过一句话同时给出多个标签,比如“该序列是强增强子,并且具有组织特异性”。

• 回归任务:例如RNA降解速率预测(输出一个连续数值)或蛋白质熔解温度预测(meltome,输出特定温度值)。ChatNT会直接输出一个数值或者带单位的数值描述。这对语言模型提出了特别的要求:要能以文本形式产生精确的数字。为此,作者在训练时对回答中的数字进行了逐位拆解监督,让模型学会逐位生成和校准数值。结果表明,ChatNT在这方面表现出色,生成的数值与真实值的相关性很高。

经过以上转换,研究者构建了一个包含约6亿个DNA碱基tokens和2.73亿个英文tokens的大规模训练语料。ChatNT在此基础上进行了多任务指令微调,使其能够在一次训练中同时掌握多种任务。值得注意的是,训练时每个批次的数据随机抽取自各个任务,从而防止模型偏向某一任务并实现任务间的均衡学习。训练目标是单一的交叉熵损失(cross-entropy),即无论分类还是回归任务,都转化为下一个单词的预测问题来统一优化。这种统一损失设计避免了多任务训练中不同目标函数之间的冲突,简化了训练流程

图3:ChatNT对部分代表性任务的对话式预测示例|左侧(a, d, e)分别展示了ChatNT就三个分类任务给出的对话实例:(a) 人/鼠启动子识别(提问序列是否含启动子,回答“Yes/No”并给出判断),(d) 人类DNA甲基化区域预测,(e) 多物种剪接供体位点预测。每个对话中,白底文字表示用户的英文提问,蓝底文字表示ChatNT生成的回答。右侧则是对应任务的混淆矩阵,比较了ChatNT预测标签与真实标签的符合情况,并给出了评价指标(如MCC)。可以看出,模型的回答不仅直接指出了预测(例如“Yes, it contains a promoter.”),还能够在一定程度上反映模型的信心和依据,例如在甲基化预测中回答“Yes, this region is likely methylated.”这表述隐含了模型的置信程度。对于剪接位点,ChatNT甚至能指出序列中哪个位置作用为供体位点(如回答中提及具体碱基位置),显示出对序列细节的掌握。

图3的右侧(b, c, f)则是ChatNT在回归任务中的问答示例|(b) 植物叶片中的启动子强度预测,(c) 人类RNA降解率预测,(f) 蛋白质熔解温度预测。ChatNT能够直接输出具体的数值结果,并通过语言描述其意义或单位。例如,在(b)中模型回答了一个分数来表示启动子强度,在(c)中给出了RNA降解速率为1.83,在(f)中报告了蛋白熔解温度。右侧相应地给出了散点图,比较ChatNT预测值与真实实验测量值的相关性,图中标注了PCC(皮尔逊相关系数)作为评价指标。可以看到数据点大体接近对角线,这说明ChatNT输出的数值与真实值高度相关,实现了相当精确的数值预测能力。

通过上述例子可以直观感受到,将传统生物信息学任务转化为对话形式后,模型不仅完成了预测,还以人类可读的方式给出了结果。这种范式极大地方便了用户:研究人员无需了解模型内部细节或编程,只需像和助手对话一样提出问题,就能让ChatNT帮忙分析序列并给出结论。这为生物信息学分析打开了一种全新的交互模式。

模型解释性与可靠性

当AI模型用于严肃的生物学研究,解释其输出的依据以及对答案的信心就尤为重要。ChatNT在这方面也进行了有益的探索:作者着重研究了模型预测的可信度校准以及对序列生物学特征的捕捉,以评估ChatNT的解释性和可靠性。

首先是模型置信度的校准。一般的深度学习模型往往存在“过度自信”或“欠自信”的问题,即预测概率与实际准确率不匹配。ChatNT给出的答案虽然是“Yes/No”或句子,但我们希望能够量化其答案的可信度。例如,当ChatNT回答“Yes, this is a promoter.”时,它有多大把握是正确的?为此,作者提出了一种基于困惑度(perplexity)的后处理方法。思路是利用语言模型对不同答案生成的困惑度来推算置信度:例如同时计算模型生成“Yes”和“No”两种答案的困惑度差异,转换成类似概率的分值。具体实现上,相当于为每个问题额外训练一个perplexity分类器,以ChatNT生成答案时的困惑度为输入,输出一个校准后的概率。这一步并不改变ChatNT的原始回答,只是在回答之后给出一个“模型认为此回答为真的概率”。通过这种方式,ChatNT的输出可以同时附带一个可信度指标,帮助用户判断答案可靠程度。



图5:ChatNT模型置信度校准方法与效果|(a)示意图说明了如何利用ChatNT回答的困惑度来派生预测概率:模型对于“是/否”两种答案计算困惑度,并将其转换为对应类别的概率(绿=未校准,紫=校准后)。(b)是一个校准示例,针对人类细胞染色质可及性预测任务,绘制了校准曲线:横轴为ChatNT给出的预测概率,纵轴为实际为真的样本比例。理想情况下曲线应接近对角线(模型预测的概率与实际准确率相符)。图中可以看到,原始模型(绿色)在中等概率区域略偏离对角线,说明信心略有偏差;而经过校准后(紫色),曲线变得更加贴近理想状态。(c)和(d)分别比较了校准前后模型预测概率的分布直方图,可以看到校准后的概率分布更均匀,避免了原始模型过多输出极端高或极端低概率的情况。(e)比较了校准对模型准确性的影响:柱状图显示在所有二分类任务上,引入困惑度校准(紫)后,ChatNT的MCC性能几乎与原始答案直接判断(绿)持平。也就是说,校准并没有损失模型的准确率,却大幅提高了预测概率的可信度。总体而言,ChatNT通过困惑度方法获得了良好的概率校准,这在实际应用中可以提高结果的可靠性,让用户更有信心理解模型的输出。

另一个重要问题是:ChatNT的回答是否基于真实的生物学信号? 换言之,模型在做出判断时,是否“看对了地方”?针对这一点,作者借助梯度解释方法对ChatNT的决策依据进行了分析。他们设计了一种跨模态的归因技术:对于ChatNT生成的每个英文答案token,计算其对输入DNA序列各位置(6-mer token)的梯度贡献。这个过程类似于可解释AI中常用的输入梯度法,将模型最终输出相对于输入特征的偏导数视为该特征的重要性评分。由于ChatNT的计算图涵盖DNA编码器、Perceiver投影和英文解码器,这个梯度会贯穿所有模块,反映出模型最终回答与各DNA片段之间的关联强度。研究者将这一方法应用于若干经典序列功能预测任务上,以检验ChatNT是否关注到了已知的关键序列元素。

具体测试了三个任务:剪接供体位点、剪接受体位点和启动子(TATA盒)。这三类序列都有公认的核心特征——供体位点通常在GT二核苷酸处剪接,受体位点在AG处剪接,而真核启动子中经常存在TATA-box保守序列。作者将ChatNT针对这些任务的一系列序列输入进行梯度分析,提取每条序列中模型关注度最高的k-mer片段,然后对所有正样本序列的高贡献片段进行汇总比对。

图6:ChatNT学会识别的关键序列特征 |(a)示意图:对于给定的DNA序列和问题,计算ChatNT生成的英文答案(例如“Yes”或“No”)相对于输入序列每个6-mer token的梯度,以评估该位置对答案的贡献度。(b–d)三个小图展示了ChatNT在三个任务上的特征提取结果:(b)剪接供体、(c)剪接受体、(d) TATA启动子。每个小图的上半部分是由模型提取的序列标志图(motif logo),表明ChatNT关注的序列模式。下半部分是对应的k-mer频谱。可以清楚地看到,ChatNT在供体任务中提取出的序列特征高度匹配经典的“GT”二核苷酸供体位点,在受体任务中对应“AG”二核苷酸,而在启动子任务中识别出了“TATA”盒的高度富集模式。这些与已知生物学事实一致的特征,强有力地说明了ChatNT并非胡乱猜测,它的决策基于真实的生物信号。模型在判断存在剪接位点时,确实把注意力集中在了GT/AG位置上;在判断启动子时,也捕捉到了TATA盒序列。这为ChatNT的解释性提供了直接证据:它的答案可追溯到具体的序列元素,而这些元素正是生物学上合理的决定因素。

通过以上两方面的工作,ChatNT成为不仅“会答”,而且“答得明白”的模型。一方面,置信度校准让用户对模型回答的可靠程度有所把握;另一方面,梯度归因揭示了模型在序列中关注的区域,与生物学知识相符。这种可解释性对于科研应用非常关键,因为研究者可以据此判断模型预测是否值得信赖,以及挖掘模型可能发现的新序列模式。

展望与应用前景

ChatNT的出现为生物信息学AI描绘了新的图景。作为首个多模态生物序列对话模型,它展示了统一模型在多任务、生物语言环境中的强大能力。可以预见,ChatNT及其后继模型将在多个方面产生深远影响:

  1. 实际生物信息学应用:ChatNT已经展示了在启动子识别、剪接位点预测、表观遗传标记分析、RNA稳定性预测、蛋白特性预测等诸多任务上的实力。在未来,它可以被用于辅助基因组学研究者完成繁重的序列分析工作。例如:基因组注释时,ChatNT可快速筛选出潜在启动子和增强子序列并给出作用强度评价;在医疗领域,给定患者的基因变异序列,ChatNT或能预测其对剪接或基因调控的影响,从而辅助诊断;在合成生物学中,ChatNT可以帮助设计具有特定表达强度的启动子或稳定的RNA序列。重要的是,这一切都通过自然语言对话完成,极大降低了使用门槛。科研人员可以直接询问“这段序列有什么功能?”、“某突变是否会破坏剪接位点?”这样的问题,ChatNT将给出专业而易懂的回答。这种人机对话式生信分析有望提高研究效率、拓宽AI在生物领域的使用人群。
  2. 跨模态拓展:ChatNT目前侧重于将核酸序列与文本相结合,但生物学数据的模态远不止序列。未来的方向之一是在ChatNT框架中融合更多模态的信息,例如基因组的三维结构数据、细胞影像数据、甚至文献知识等。由于ChatNT架构具有模块化优势,我们可以引入新的编码器,比如蛋白质3D结构编码器或细胞图像编码器,将它们的输出通过类似的Perceiver投影机制整合,再由通用的语言模型来理解提问和生成答案。这将使模型能够回答更加复杂、跨模态的问题。例如:“请根据这段DNA序列和其染色质开放区域图预测该基因的表达水平。”这样的任务需要同时考虑序列和实验数据,多模态ChatNT有潜力胜任。正如作者所言,他们的指令微调框架易于扩展到更多任务和数据模态,未来可以发展出真正广谱的生物AI助手。
  3. 深入生物机制的AI伙伴:ChatNT给我们带来的不仅是便利,更是一种新范式——让AI以对话形式参与科研。从中长期看,随着模型能力的提升,ChatNT类系统有望成为生物学家的日常伙伴。它可以阅读海量文献、理解复杂生物网络,并将这些知识内化到序列预测中。当研究者提出假说或设计实验时,AI助手可以即时提供相关背景信息和预测结果。例如,在新药研发中,给定一个靶基因,ChatNT可以综合基因调控序列、RNA二级结构、蛋白质互作网络等多方面信息,提示潜在的调控开关或反馈回路。这种智能助手将帮助人类更系统性地理解生物体系。当然,实现这一愿景需要不断改进模型的规模和训练数据,以及解决多模态对齐和推理等技术挑战。但ChatNT已经证明了这一道路的可行性。
  4. 与领域专家融合:值得强调的是,ChatNT并非要取代生物学家,而是作为“辅助智能”融入科研流程。它的解释能力(如识别TATA盒)表明,模型可以和专家进行双向交流:一方面专家向模型提问,另一方面模型的输出也能为专家提供新线索和见解。未来我们或许会看到这样的场景:科研人员与ChatNT反复对话,像和同事讨论一般,一起推理基因调控的机制。通过人机协作,AI可能发现人类疏漏的模式,人类则对AI的发现进行验证和赋予生物学意义。这将产生一种新的科研范式,使复杂生命系统的研究效率得到质的飞跃。

总之,ChatNT作为首个多模态生物序列对话模型,其发布标志着生物信息学进入了大模型时代。它证明了利用自然语言作为接口,可以训练出同时掌握多种生物任务并能与人互动的AI。这仅仅是开始:未来随着更大规模的数据、更强的模型以及更多模态的融合,生物信息学AI将变得前所未有的强大和易用。我们有理由期待,一个“万能的生物学ChatGPT”将出现在不远的将来,帮助人类探索生命科学的未知领域

posted @ 2025-07-12 22:01  生物信息与育种  阅读(36)  评论(0)    收藏  举报