大模型综述

Large Language Models in Bioinformatics: A Survey

https://arxiv.org/abs/2503.04490

论文基本架构

【金山文档 | WPS云文档】 生物信息学中的大语言模型:综述 https://365.kdocs.cn/l/cqDPBuuFHBwh

  • 文献基础信息
    • 标题:Large Language Models in Bioinformatics: A Survey(生物信息学中的大语言模型:综述)
    • 作者团队:Zhenyu Wang、Zikang Wang等(来自香港中文大学、北京大学第三医院、香港理工大学、香港大学等机构)
    • 联系方式:1810301343@bjmu.edu.cn、zikang.wang@connect.polyu.hk等
    • 预印本信息:arXiv:2503.04490v2 [cs.CL] 31 May 2025
  • 摘要核心内容
    • 大语言模型(LLMs)对生物信息学的变革作用:实现DNA、RNA、蛋白质、单细胞数据的高级分析
    • 综述核心范围:系统综述LLMs在基因组序列建模、RNA结构预测、蛋白质功能推断、单细胞转录组学的最新进展
    • 关键挑战:数据稀缺、计算复杂性、跨组学整合
    • 未来方向:多模态学习、混合AI模型、临床应用
    • 核心价值:强调LLMs在推动生物信息学和精准医学创新中的变革潜力
  • 1 引言
    • 生物信息学定义:跨生物学、计算机科学、信息技术的交叉领域,用于分析解读复杂生物数据(引用Lu et al., 2020等研究)
    • LLMs的跨领域延伸:在NLP领域成果显著,逐步应用于生物信息学,但生物数据与文本数据差异大,面临独特挑战
    • 生物信息学核心任务:DNA序列功能预测与生成、RNA结构与功能预测、蛋白质结构预测与设计、单细胞数据分析(含降维、聚类、细胞注释、发育轨迹分析)
    • 研究现状:LLMs在生物信息学应用增长迅速,但相关方法缺乏系统总结,存在综述需求
    • 综述结构预告:从基础概念、模型概述、子领域应用、挑战与未来方向展开
  • 2 基础概念(Preliminaries)
    • LLM核心架构分类及生物信息学适配性
      • 仅编码器模型(Encoder-only)
        • 代表模型:ProteinBERT(Brandes et al., 2022)、DNABERT、Enformer等
        • 核心机制:基于双向自注意力,专注表示学习,捕捉输入序列上下文依赖
        • 优势:适合序列分类、基因表达预测、调控元件识别等下游任务,能生成丰富的上下文嵌入
        • 局限:缺乏自回归解码机制,不擅长生成类任务
      • 仅解码器模型(Decoder-only)
        • 代表模型:ProGen2(Nijkamp et al., 2023)、Evo(Nguyen et al., 2024)、DNAGPT等
        • 核心机制:自回归生成,逐token基于历史信息生成输出
        • 优势:适合序列生成、结构预测、功能注释,可实现从头序列合成(如功能蛋白序列生成)
        • 局限:依赖单向注意力,难捕捉长程双向依赖;领域特定任务需大量微调
      • 编码器-解码器模型(Encoder-Decoder)
        • 代表模型:RoseTTAFold(Baek et al., 2021)、Fold2Seq、scFoundation等
        • 核心机制:适配序列到序列任务,实现输入序列到输出序列的转换
        • 优势:适合跨生物模态映射(如基因表达预测、多组学整合);RoseTTAFold通过三轨道神经网络预测蛋白质相互作用及复合物形成
        • 局限:训练和推理需大量计算资源;性能依赖大规模领域预训练数据
  • 3 DNA与基因组学(DNA and Genomics: Learn and Generate)
    • 研究核心方向:LLMs在基因组任务中的应用,涵盖DNA序列分析能力提升、基因突变影响预测、调控序列识别、功能基因序列生成
    • 关键模型及功能
      • DNABERT(Ji et al., 2021):预训练双向编码器,基于上下游核苷酸上下文捕捉基因组DNA序列全局理解,可微调用于启动子区域预测、转录因子结合位点识别等
      • DNABERT-2(Zhou et al., 2023):Transformer架构基础模型,针对多物种基因组分析,整合创新分词方法和高效注意力机制
      • GeneBERT(Mo et al., 2021):多模态基因组数据自监督预训练模型,捕捉复杂生物模式,适配启动子预测、疾病风险评估等任务
      • GROVER(Sanabria et al., 2024):同时学习token级特征和序列上下文,擅长next-k-mer预测、启动子识别等
      • MegaDNA(Shao and Yan, 2024):长上下文生成模型,基于多尺度Transformer架构,实现单核苷酸分辨率的DNA序列处理与生成
      • Nucleotide Transformer(Dalla-Torre et al., 2024):大规模预训练模型,从DNA序列预测分子表型
      • Evo(Nguyen et al., 2024):基因组基础模型,跨分子到基因组尺度预测和生成DNA、RNA、蛋白质序列
    • 应用价值:推动合成生物学(功能基因设计)、基因治疗(致病基因修复)、基因组功能解析
  • 4 RNA研究(RNA: Structure and Function)
    • 4.1 RNA结构预测
      • RNA结构重要性:RNA功能依赖二级、三级结构,准确预测对理解生物机制和治疗开发至关重要
      • 核心挑战:RNA折叠复杂动态、长程相互作用、非 canonical 碱基配对;高质量实验数据稀缺
      • 二级结构预测:6种RNA-LLMs(RNABERT、RNA-FM等) benchmark 中,RiNALMo和ERNIE-RNA能更好区分RNA家族(Zablocki et al., 2024)
      • 三级结构预测
        • Uni-RNA(Wang et al., 2023b):结合大规模预训练与深度学习,预测RNA结构、功能及性质
        • RhoFold+(Shen et al., 2024):整合RNA-FM预训练模型与深度学习架构,实现从序列到3D结构的端到端预测
        • NuFold(Kagaya et al., 2025):深度学习模型,填补RNA序列与实验结构差距
    • 4.2 RNA功能分析
      • 功能研究范畴:剪接位点预测、非编码RNA功能分类、RNA相互作用(RNA-RNA、RNA-蛋白质、RNA-小分子)
      • 关键工具与模型
        • BEACON(Ren et al., 2024):涵盖13类RNA任务,含结构分析、功能研究等
        • BioLLMNet(Tahmid et al., 2024):融合多语言模型特征,提升RNA相关相互作用预测性能
      • 生物学意义:RNA相互作用异常与癌症等疾病相关;RNA小分子相互作用为药物研发提供靶点
    • 4.3 RNA序列生成
      • RNA-GPT(Xiao et al., 2024):多模态RNA聊天模型,整合文献与序列编码,处理用户上传序列并输出分析结果
      • RNA-DCGen(Shahgir et al., 2024):通用RNA序列生成框架,通过RNA-LM微调适配结构/功能约束
  • 5 蛋白质研究(Protein: Prediction and Design)
    • 5.1 蛋白质结构与功能预测
      • 关键模型及能力
        • AlphaFold2(Jumper et al., 2021):原子级精度预测蛋白质3D结构,CASP14获突破,开源数据库推动药物发现
        • RoseTTAFold(Baek et al., 2021):三轨道神经网络整合序列、距离、3D坐标预测,实现近实验精度
        • ESM-1b(Rives et al., 2021):Transformer编码器,基于大规模蛋白质序列自监督学习推断结构与功能
        • ProteinBERT(Brandes et al., 2022):区分局部与全局表示,通过自监督学习实现多任务蛋白质分析
        • ProtTrans(Elnaggar et al., 2021):1亿+序列预训练,适配结构预测、功能注释等任务
        • AlphaFold3(Abramson et al., 2024):整合几何深度学习与扩散模型,预测生物分子复合物结构,提升配体结合位点预测精度
        • ESM-DBP(Zeng et al., 2024):结合蛋白质语言模型与DNA结合特异性预测,识别DNA相互作用基序
        • RoseTTAFold All-Atom(Krishna et al., 2024):预测多类生物分子组装(蛋白质、核酸等)
    • 5.2 蛋白质设计与工程
      • 应用场景:抗体设计(降低聚集倾向)、疾病靶向药物开发、蛋白质错误折叠疾病机制研究
      • 关键模型
        • ProtGPT2(Ferruz et al., 2022):Transformer预训练模型,生成新蛋白质序列并保留天然特征
        • ProGen2(Nijkamp et al., 2023):64亿参数模型,训练于10亿+蛋白质序列,生成功能蛋白序列
        • ESM-3(Hayes et al., 2025):多模态分析模型,生成新蛋白质并预测3D结构
        • xTrimoPGLM(Chen et al., 2025):预测与设计蛋白质序列及结构
  • 6 单细胞分析(scRNA: Development and Challenge)
    • 单细胞测序技术价值:解析单细胞水平基因表达,助力疾病进展、治疗效果研究,识别细胞亚群
    • 传统分析局限:依赖Seurat、Scanpy工具,难处理海量数据;LLMs整合推动领域发展
    • 关键模型及功能
      • scBERT(Yang et al., 2022):适配BERT框架,预训练学习基因相互作用,微调用于细胞类型注释
      • Geneformer(Theodoris et al., 2023):Transformer架构,2990万单细胞转录组预训练,捕捉基因调控动态
      • GPTCelltype(Hou and Ji, 2024):基于GPT-4的R软件包,自动化细胞类型注释,替代传统方法
      • scFoundation(Hao et al., 2024a):1亿参数模型,5000万+单细胞数据预训练,适配基因表达增强、药物响应预测等
      • scGPT(Cui et al., 2024):Transformer架构,3300万+单细胞转录组预训练,处理多组学数据,实现细胞注释、扰动预测等
    • 现存挑战:计算效率与表达分辨率权衡、数据偏倚、模型黑箱特性、高计算成本
    • 未来方向:多模态数据整合(转录组、表观组等)、知识引导架构、少样本学习、轻量化模型开发
  • 7 结论与未来方向(Conclusions and Future Directions)
    • 7.1 核心挑战与局限
      • 数据问题:LLMs需大规模高质量生物数据,但标注数据稀缺;生物数据集噪声多、不完整、存在物种/疾病偏倚;批次效应影响模型鲁棒性(Lu et al., 2024;Yu et al., 2024)
      • 计算复杂性:AlphaFold等模型训练/推理需大量资源,长生物序列增加内存需求;模型压缩与检索增强技术待探索(Bernard et al., 2025)
      • 多模态与跨组学整合:生物系统多分子层相互作用复杂,现有LLMs多基于单模态数据,需开发多模态架构整合异质数据(Dankan Gowda et al., 2025)
    • 7.2 未来研究方向
      • 混合AI模型:整合LLMs与GNN、知识图谱提升生物推理与可解释性;结合深度学习与符号AI、约束建模实现因果预测(Feng et al., 2025;Colelough and Regli, 2025)
      • 多模态与跨组学整合:设计多模态LLMs处理DNA、RNA、蛋白质等数据;结合自监督学习与进化原理、调控网络,提升模型可靠性(Feng et al., 2023)
      • 临床与生物医学应用:加强模型临床验证与合规性;关注伦理考量,确保医疗安全性(Perlis and Fihn, 2023)
    • 核心目标:推动LLMs在基因组学、精准医学中的突破,实现AI驱动生物发现
  • 综述局限性(Limitations)
    • 范围局限:聚焦DNA、RNA、蛋白质、单细胞分析,未深入覆盖表观基因组学、宏基因组学
    • 时效性局限:LLMs领域发展迅速,部分最新突破未完全纳入
    • 实证基准缺失:未开展标准化实验验证与性能评估,数据集与计算效率评估待完善
  • 附录与补充信息
    • 表1:代表性LLMs综合概述,含作者、时间、期刊、类型、数据集、任务、应用领域(如DNABERT、AlphaFold2等)
    • 表2:不同LLM架构的平均训练时长与单设备显存统计(编码器-only:43GB显存,14天;解码器-only:46GB显存,5天;编码器-解码器:81GB显存,40天)
    • 表3:精选LLMs计算成本量化 overview,含计算资源、单设备显存、训练时长(如DNABERT用8*NVIDIA 2080Ti,11GB显存;AlphaFold2用TPU v3,32GB显存,~28天训练)
    • 伦理声明:无伦理问题
    • 致谢:感谢评审反馈,列出研究资助机构与项目(香港中文大学、香港研资局等)
    • 参考文献:引用200+相关研究,涵盖LLMs、生物信息学、基因组学等领域关键成果

image-20251015173442160

相关问题

什么是随机自回归机制

一、基础定义:自回归与随机的结合

随机自回归机制是一种序列生成框架,核心是在 “自回归” 的生成逻辑基础上,引入 “随机采样” 以打破确定性输出,从而生成更多样、更贴近真实数据分布的结果。

  • 自回归(Autoregressive)生成序列时,每一步的输出依赖于前序所有已生成的结果(即 “用历史预测未来”)。例如生成句子时,第t个词的选择依赖于第1到(t-1)个词;生成 DNA 序列时,第t个碱基(A/T/C/G)依赖于前(t-1)个碱基。
  • 随机(Stochastic):每一步生成并非输出 “概率最高的唯一结果”,而是从当前步骤的概率分布中随机采样结果(如通过 Softmax 输出的类别概率分布、高斯分布等),让生成过程具备不确定性。

二、核心原理:两步驱动的序列生成

随机自回归机制的工作流程可分为 “概率建模” 和 “随机采样” 两个关键步骤,以离散序列(如文本、生物序列)和连续序列(如时间序列、图像像素)为例:

1. 第一步:自回归概率建模

模型通过神经网络(如 Transformer Decoder、RNN、LSTM)学习 “序列历史→当前输出” 的条件概率分布(p(x_t \mid x_1, x_2, ..., x_{t-1})),即:

  • 对于离散数据(如蛋白质序列的氨基酸类型):模型输出当前位置所有可能类别的概率(如 20 种氨基酸的概率分布),通过 Softmax 函数归一化。
  • 对于连续数据(如单细胞基因表达量的时间序列):模型输出当前位置的概率分布参数(如高斯分布的均值(\mu)和方差(\sigma^2)),而非直接输出确定值。

这一步的核心是 “捕捉序列依赖”—— 模型需学习数据内在的时序 / 顺序规律(如 DNA 中启动子区域的碱基排列偏好、蛋白质二级结构对应的氨基酸序列模式)。

2. 第二步:基于概率分布的随机采样

为避免生成结果 “机械重复”(确定性自回归的常见问题),模型从第一步建模的概率分布中随机选择输出值,而非直接取概率最大的 “贪心选择”。常见的采样策略包括:

  • 基础采样(Sampling):直接根据类别概率随机挑选(如概率 0.3 的 A、0.5 的 T、0.2 的 C 中,有 50% 概率选 T)。
  • 温度调节采样(Temperature Sampling):通过 “温度参数T” 调整分布的 “尖锐度”——(T>1)时分布更平缓(多样性更高,可能生成异常结果),(T<1)时分布更尖锐(多样性降低,更接近贪心选择)。
  • _top-k 采样:仅从概率最高的k个候选中采样(如仅选前 5 个概率最高的氨基酸),平衡多样性与合理性。

例如在蛋白质序列生成中,若模型预测当前位置氨基酸的概率为 “亮氨酸(0.4)、丙氨酸(0.3)、缬氨酸(0.2)、其他(0.1)”,通过随机采样可能生成亮氨酸(概率 0.4)或丙氨酸(概率 0.3),而非固定选择亮氨酸。

三、关键特性:为何需要 “随机” 与 “自回归”?

1. 自回归的必要性:适配 “有序依赖” 数据

许多真实世界数据具有强序列依赖性—— 后续元素的分布由前序元素决定,必须通过自回归建模才能捕捉这种规律:

  • 生物序列:DNA 的基因编码区需遵循 “密码子三联体” 规则(3 个碱基对应 1 个氨基酸),前两个碱基的选择会限制第三个碱基;RNA 的二级结构(如茎环)依赖碱基间的互补配对(A-U、G-C),前序碱基的排列直接影响后续折叠。
  • 自然语言:句子 “我今天吃了____” 中,空格处的词(如 “苹果”“米饭”)依赖前序语境,无法独立生成。

若不采用自回归,直接生成整个序列(如非自回归模型),会丢失这种精细的依赖关系,导致生成结果不符合数据逻辑(如 DNA 出现无效密码子、句子语法混乱)。

2. 随机的必要性:提升生成多样性与泛化性

确定性自回归(如贪心选择)会导致 “模式坍塌”—— 生成结果高度重复(如每次都生成相同的蛋白质序列、相同的句子),无法覆盖真实数据的复杂分布。而随机采样的核心价值在于:

  • 模拟真实数据的不确定性:生物序列的进化本身具有随机性(如基因突变的概率性),随机自回归可生成多种 “合理但不同” 的序列,更贴近自然规律。
  • 支持探索性任务:在药物设计中,需生成多种潜在的活性蛋白质序列;在单细胞数据分析中,需模拟不同细胞状态下的基因表达序列 —— 随机机制可提供更多候选方案,助力发现新规律。

什么是自监督方式

“自监督方式(Self-Supervised Learning, SSL)” 是机器学习的核心范式之一,其核心逻辑是无需人工标注数据,而是从数据本身的内在结构、关联性或上下文信息中自动挖掘 “监督信号”,实现模型的预训练与特征学习。这种方式解决了传统监督学习对 “大规模人工标注数据” 的依赖问题,在生物信息学(如你关注的 LLM 与基因组 / 蛋白质研究)、计算机视觉、自然语言处理等领域应用广泛,是当前 AI 技术突破的关键支撑。

一、核心定义:“自己监督自己” 的本质

自监督学习的核心是 “从数据中生成标签”—— 无需人类手动标注(如给 DNA 序列标注 “启动子区域”、给蛋白质序列标注 “功能类别”),而是通过设计 “ pretext task( pretext 任务,即‘伪任务’)”,让模型从原始数据中自动提取监督信号(即 “伪标签”),并基于这些信号学习数据的深层特征。

例如:给模型输入一段 DNA 序列 “ATCGGCTA...”,通过 “掩盖其中某个碱基(如把第 5 位的‘G’换成‘[MASK]’)”,让模型预测被掩盖的碱基是什么 —— 这里的 “被掩盖碱基” 就是模型自动生成的 “伪标签”,模型通过学习 “上下文碱基→被掩盖碱基” 的映射关系,间接掌握 DNA 序列的内在规律(如碱基互补配对、特定功能区域的序列模式)。

二、自监督方式的关键要素

要实现自监督学习,需满足两个核心条件,这也是其与监督学习、无监督学习的本质区别:

  1. 自动构建监督信号:监督信号来自数据本身,而非人工标注。例如:
    • 文本 / 生物序列:用 “上下文预测中间元素”(如 BERT 的 Masked Language Model 任务);
    • 图像:用 “旋转后的图像预测旋转角度”“裁剪的图像块拼接还原”。
  2. “伪任务” 服务 “真实任务”:设计的 “伪任务” 本身不是最终目标,而是通过伪任务让模型学习到 “可迁移的通用特征”,再将这些特征用于下游真实任务(如用 DNA 序列的上下文特征预测 “启动子区域”、用蛋白质序列特征预测 “3D 结构”)。

三、自监督方式的典型实现思路(结合生物信息学场景)

在关注的基因组、RNA、蛋白质及 LLM 研究中,自监督方式的实现高度贴合生物数据的特性(如序列性、结构性),常见思路可分为三类:

1. 序列掩码与预测(最核心的 LLM 预训练思路)

针对 DNA、RNA、蛋白质等 “线性序列数据”,通过 “掩盖序列中的部分元素”,让模型基于上下文预测被掩盖的元素,从而学习序列的内在依赖关系(如碱基排列规律、氨基酸组合模式)。

  • 实例 1:DNA/RNA 序列的掩码预测

    如文献中提到的DNABERT “基于上下游核苷酸上下文捕捉基因组 DNA 序列的全局理解”—— 其预训练阶段采用 “Masked Nucleotide Model(掩码核苷酸模型)”:随机掩盖 DNA 序列中 15% 的碱基(如 A/T/C/G),用 “[MASK]” 替换,然后让模型根据被掩盖碱基的前后序列(如 “AT [MASK] CG”)预测真实碱基。通过该任务,模型自动学习到 “启动子区域的碱基偏好”“密码子三联体规则” 等特征,后续可直接微调用于 “转录因子结合位点预测”“基因功能分类” 等下游任务。

  • 实例 2:蛋白质序列的掩码预测

    如ESM-1b “通过对 2.5 亿条蛋白质序列的自监督学习推断结构与功能”—— 预训练时随机掩盖序列中 15% 的氨基酸(如亮氨酸、丙氨酸),模型通过上下文预测被掩盖的氨基酸类型,间接掌握 “蛋白质二级结构(如 α- 螺旋、β- 折叠)对应的氨基酸序列模式”,后续无需重新训练,即可快速适配 “蛋白质功能注释”“突变影响预测” 等任务。

2. 序列重构与对比(挖掘数据的全局关联性)

通过 “打乱序列片段→让模型还原” 或 “构建相似 / 不相似序列对→让模型区分”,让模型学习数据的全局结构与相似性特征,适用于长序列(如基因组、单细胞转录组)的特征提取。

  • 实例 1:序列片段排序

    对长 DNA 序列(如人类染色体片段)进行随机切割,得到多个短片段(如 100 个碱基的片段 A、B、C),然后打乱片段顺序(如 B、A、C),让模型预测 “正确的片段排列顺序”。通过该任务,模型学习到 DNA 序列的 “长程依赖关系”(如不同功能区域的先后顺序),可用于 “基因组组装”“染色体结构分析”。

  • 实例 2:对比学习(Contrastive Learning)

    如单细胞分析中的scBERT “通过自监督预训练学习基因 - 基因相互作用”—— 对同一细胞的转录组数据(基因表达矩阵)进行 “轻微扰动”(如添加微小噪声、替换少量基因表达值),生成 “相似样本对”(同一细胞的扰动前后数据);同时随机选取其他细胞的转录组数据作为 “不相似样本对”。模型通过学习 “区分相似与不相似样本对”,自动捕捉 “细胞类型特异性的基因表达模式”,后续可直接用于 “细胞类型注释”“疾病细胞亚群识别”。

3. 跨模态关联学习(适用于多类型生物数据)

当数据包含多种模态(如 DNA 序列 + 对应的基因表达数据、蛋白质序列 + 3D 结构数据)时,通过 “建立不同模态间的关联” 生成监督信号,让模型学习跨模态的统一特征表示。

  • 实例:蛋白质 “序列 - 结构” 关联预测

    如AlphaFold3 的预训练阶段,利用已知的蛋白质 “氨基酸序列” 与 “3D 结构” 数据,设计 “用序列预测局部结构特征(如氨基酸间的距离、角度)”“用结构片段预测对应的序列片段” 等任务。模型通过学习 “序列 - 结构” 的内在关联,自动掌握 “结构决定功能” 的规律,后续可直接用于 “未知蛋白质的 3D 结构预测”。

四、自监督方式的核心优势(为何在生物信息学中至关重要)

生物信息学领域的核心痛点是 “数据量大但标注少”(如人类基因组有 30 亿个碱基,但人工标注的 “功能区域” 仅占极小比例;蛋白质数据库有上亿条序列,但已知 3D 结构的仅百万级),自监督方式恰好解决了这一痛点:

  1. 无需人工标注,降低成本:可直接利用海量未标注生物数据(如公开的 DNA 序列库、RNAcentral、UniProt 等)进行预训练,无需投入大量人力标注。
  2. 学习通用特征,适配多任务:通过自监督学到的特征(如 DNA 的碱基依赖、蛋白质的序列模式)具有 “通用性”,可快速微调用于多个下游任务(如一个预训练的 DNA-LLM,可同时适配 “启动子预测”“突变影响分析”“基因表达预测”)。
  3. 捕捉生物数据的深层规律:生物数据的内在关联性(如 DNA 的调控网络、蛋白质的结构 - 功能关联)难以通过人工标注完全覆盖,自监督方式可自动挖掘这些隐性规律,提升模型的生物学解释性。

五、自监督方式与其他学习范式的对比

为更清晰理解其定位,可将自监督学习与监督学习、无监督学习对比:

学习范式 监督信号来源 核心特点 生物信息学应用实例 缺点
自监督学习 数据本身(自动生成) 无需人工标注,学习通用特征,可迁移 DNABERT 预训练(掩码碱基预测)、ESM-1b 预训练 伪任务设计依赖领域知识,部分场景特征可解释性弱
监督学习 人工标注数据 目标明确,任务性能高 用标注的 “启动子序列” 训练模型预测启动子 依赖大规模标注数据,标注成本高,泛化性差
无监督学习 无监督信号(仅聚类) 探索数据分布,无明确目标 对单细胞数据进行聚类(如 Seurat 的 PCA 聚类) 难以学习任务相关特征,性能通常低于自监督

六、总结

自监督方式的本质是 “从数据中挖掘监督信号,让模型自己教自己”,其核心价值在于突破了生物信息学中 “数据多、标注少” 的瓶颈。在你关注的 LLM 与生物信息学研究中,无论是 DNABERT、ESM 等序列模型的预训练,还是 scBERT、Geneformer 等单细胞分析模型的开发,自监督方式都是实现 “模型从‘能处理数据’到‘能理解生物规律’” 的关键技术,也是当前 AI 驱动生物发现(如基因编辑、蛋白质设计、疾病诊断)的核心支撑。

posted @ 2025-10-15 17:48  Seryn  阅读(7)  评论(0)    收藏  举报