大模型综述

Large Language Models in Bioinformatics: A Survey

https://arxiv.org/abs/2503.04490

论文基本架构

【金山文档 | WPS云文档】生物信息学中的大语言模型：综述 https://365.kdocs.cn/l/cqDPBuuFHBwh

文献基础信息
- 标题：Large Language Models in Bioinformatics: A Survey（生物信息学中的大语言模型：综述）
- 作者团队：Zhenyu Wang、Zikang Wang等（来自香港中文大学、北京大学第三医院、香港理工大学、香港大学等机构）
- 联系方式：1810301343@bjmu.edu.cn、zikang.wang@connect.polyu.hk等
- 预印本信息：arXiv:2503.04490v2 [cs.CL] 31 May 2025
摘要核心内容
- 大语言模型（LLMs）对生物信息学的变革作用：实现DNA、RNA、蛋白质、单细胞数据的高级分析
- 综述核心范围：系统综述LLMs在基因组序列建模、RNA结构预测、蛋白质功能推断、单细胞转录组学的最新进展
- 关键挑战：数据稀缺、计算复杂性、跨组学整合
- 未来方向：多模态学习、混合AI模型、临床应用
- 核心价值：强调LLMs在推动生物信息学和精准医学创新中的变革潜力
1 引言
- 生物信息学定义：跨生物学、计算机科学、信息技术的交叉领域，用于分析解读复杂生物数据（引用Lu et al., 2020等研究）
- LLMs的跨领域延伸：在NLP领域成果显著，逐步应用于生物信息学，但生物数据与文本数据差异大，面临独特挑战
- 生物信息学核心任务：DNA序列功能预测与生成、RNA结构与功能预测、蛋白质结构预测与设计、单细胞数据分析（含降维、聚类、细胞注释、发育轨迹分析）
- 研究现状：LLMs在生物信息学应用增长迅速，但相关方法缺乏系统总结，存在综述需求
- 综述结构预告：从基础概念、模型概述、子领域应用、挑战与未来方向展开
2 基础概念（Preliminaries）
- LLM核心架构分类及生物信息学适配性
  - 仅编码器模型（Encoder-only）
    - 代表模型：ProteinBERT（Brandes et al., 2022）、DNABERT、Enformer等
    - 核心机制：基于双向自注意力，专注表示学习，捕捉输入序列上下文依赖
    - 优势：适合序列分类、基因表达预测、调控元件识别等下游任务，能生成丰富的上下文嵌入
    - 局限：缺乏自回归解码机制，不擅长生成类任务
  - 仅解码器模型（Decoder-only）
    - 代表模型：ProGen2（Nijkamp et al., 2023）、Evo（Nguyen et al., 2024）、DNAGPT等
    - 核心机制：自回归生成，逐token基于历史信息生成输出
    - 优势：适合序列生成、结构预测、功能注释，可实现从头序列合成（如功能蛋白序列生成）
    - 局限：依赖单向注意力，难捕捉长程双向依赖；领域特定任务需大量微调
  - 编码器-解码器模型（Encoder-Decoder）
    - 代表模型：RoseTTAFold（Baek et al., 2021）、Fold2Seq、scFoundation等
    - 核心机制：适配序列到序列任务，实现输入序列到输出序列的转换
    - 优势：适合跨生物模态映射（如基因表达预测、多组学整合）；RoseTTAFold通过三轨道神经网络预测蛋白质相互作用及复合物形成
    - 局限：训练和推理需大量计算资源；性能依赖大规模领域预训练数据
3 DNA与基因组学（DNA and Genomics: Learn and Generate）
- 研究核心方向：LLMs在基因组任务中的应用，涵盖DNA序列分析能力提升、基因突变影响预测、调控序列识别、功能基因序列生成
- 关键模型及功能
  - DNABERT（Ji et al., 2021）：预训练双向编码器，基于上下游核苷酸上下文捕捉基因组DNA序列全局理解，可微调用于启动子区域预测、转录因子结合位点识别等
  - DNABERT-2（Zhou et al., 2023）：Transformer架构基础模型，针对多物种基因组分析，整合创新分词方法和高效注意力机制
  - GeneBERT（Mo et al., 2021）：多模态基因组数据自监督预训练模型，捕捉复杂生物模式，适配启动子预测、疾病风险评估等任务
  - GROVER（Sanabria et al., 2024）：同时学习token级特征和序列上下文，擅长next-k-mer预测、启动子识别等
  - MegaDNA（Shao and Yan, 2024）：长上下文生成模型，基于多尺度Transformer架构，实现单核苷酸分辨率的DNA序列处理与生成
  - Nucleotide Transformer（Dalla-Torre et al., 2024）：大规模预训练模型，从DNA序列预测分子表型
  - Evo（Nguyen et al., 2024）：基因组基础模型，跨分子到基因组尺度预测和生成DNA、RNA、蛋白质序列
- 应用价值：推动合成生物学（功能基因设计）、基因治疗（致病基因修复）、基因组功能解析
4 RNA研究（RNA: Structure and Function）
- 4.1 RNA结构预测
  - RNA结构重要性：RNA功能依赖二级、三级结构，准确预测对理解生物机制和治疗开发至关重要
  - 核心挑战：RNA折叠复杂动态、长程相互作用、非 canonical 碱基配对；高质量实验数据稀缺
  - 二级结构预测：6种RNA-LLMs（RNABERT、RNA-FM等） benchmark 中，RiNALMo和ERNIE-RNA能更好区分RNA家族（Zablocki et al., 2024）
  - 三级结构预测
    - Uni-RNA（Wang et al., 2023b）：结合大规模预训练与深度学习，预测RNA结构、功能及性质
    - RhoFold+（Shen et al., 2024）：整合RNA-FM预训练模型与深度学习架构，实现从序列到3D结构的端到端预测
    - NuFold（Kagaya et al., 2025）：深度学习模型，填补RNA序列与实验结构差距
- 4.2 RNA功能分析
  - 功能研究范畴：剪接位点预测、非编码RNA功能分类、RNA相互作用（RNA-RNA、RNA-蛋白质、RNA-小分子）
  - 关键工具与模型
    - BEACON（Ren et al., 2024）：涵盖13类RNA任务，含结构分析、功能研究等
    - BioLLMNet（Tahmid et al., 2024）：融合多语言模型特征，提升RNA相关相互作用预测性能
  - 生物学意义：RNA相互作用异常与癌症等疾病相关；RNA小分子相互作用为药物研发提供靶点
- 4.3 RNA序列生成
  - RNA-GPT（Xiao et al., 2024）：多模态RNA聊天模型，整合文献与序列编码，处理用户上传序列并输出分析结果
  - RNA-DCGen（Shahgir et al., 2024）：通用RNA序列生成框架，通过RNA-LM微调适配结构/功能约束
5 蛋白质研究（Protein: Prediction and Design）
- 5.1 蛋白质结构与功能预测
  - 关键模型及能力
    - AlphaFold2（Jumper et al., 2021）：原子级精度预测蛋白质3D结构，CASP14获突破，开源数据库推动药物发现
    - RoseTTAFold（Baek et al., 2021）：三轨道神经网络整合序列、距离、3D坐标预测，实现近实验精度
    - ESM-1b（Rives et al., 2021）：Transformer编码器，基于大规模蛋白质序列自监督学习推断结构与功能
    - ProteinBERT（Brandes et al., 2022）：区分局部与全局表示，通过自监督学习实现多任务蛋白质分析
    - ProtTrans（Elnaggar et al., 2021）：1亿+序列预训练，适配结构预测、功能注释等任务
    - AlphaFold3（Abramson et al., 2024）：整合几何深度学习与扩散模型，预测生物分子复合物结构，提升配体结合位点预测精度
    - ESM-DBP（Zeng et al., 2024）：结合蛋白质语言模型与DNA结合特异性预测，识别DNA相互作用基序
    - RoseTTAFold All-Atom（Krishna et al., 2024）：预测多类生物分子组装（蛋白质、核酸等）
- 5.2 蛋白质设计与工程
  - 应用场景：抗体设计（降低聚集倾向）、疾病靶向药物开发、蛋白质错误折叠疾病机制研究
  - 关键模型
    - ProtGPT2（Ferruz et al., 2022）：Transformer预训练模型，生成新蛋白质序列并保留天然特征
    - ProGen2（Nijkamp et al., 2023）：64亿参数模型，训练于10亿+蛋白质序列，生成功能蛋白序列
    - ESM-3（Hayes et al., 2025）：多模态分析模型，生成新蛋白质并预测3D结构
    - xTrimoPGLM（Chen et al., 2025）：预测与设计蛋白质序列及结构
6 单细胞分析（scRNA: Development and Challenge）
- 单细胞测序技术价值：解析单细胞水平基因表达，助力疾病进展、治疗效果研究，识别细胞亚群
- 传统分析局限：依赖Seurat、Scanpy工具，难处理海量数据；LLMs整合推动领域发展
- 关键模型及功能
  - scBERT（Yang et al., 2022）：适配BERT框架，预训练学习基因相互作用，微调用于细胞类型注释
  - Geneformer（Theodoris et al., 2023）：Transformer架构，2990万单细胞转录组预训练，捕捉基因调控动态
  - GPTCelltype（Hou and Ji, 2024）：基于GPT-4的R软件包，自动化细胞类型注释，替代传统方法
  - scFoundation（Hao et al., 2024a）：1亿参数模型，5000万+单细胞数据预训练，适配基因表达增强、药物响应预测等
  - scGPT（Cui et al., 2024）：Transformer架构，3300万+单细胞转录组预训练，处理多组学数据，实现细胞注释、扰动预测等
- 现存挑战：计算效率与表达分辨率权衡、数据偏倚、模型黑箱特性、高计算成本
- 未来方向：多模态数据整合（转录组、表观组等）、知识引导架构、少样本学习、轻量化模型开发
7 结论与未来方向（Conclusions and Future Directions）
- 7.1 核心挑战与局限
  - 数据问题：LLMs需大规模高质量生物数据，但标注数据稀缺；生物数据集噪声多、不完整、存在物种/疾病偏倚；批次效应影响模型鲁棒性（Lu et al., 2024；Yu et al., 2024）
  - 计算复杂性：AlphaFold等模型训练/推理需大量资源，长生物序列增加内存需求；模型压缩与检索增强技术待探索（Bernard et al., 2025）
  - 多模态与跨组学整合：生物系统多分子层相互作用复杂，现有LLMs多基于单模态数据，需开发多模态架构整合异质数据（Dankan Gowda et al., 2025）
- 7.2 未来研究方向
  - 混合AI模型：整合LLMs与GNN、知识图谱提升生物推理与可解释性；结合深度学习与符号AI、约束建模实现因果预测（Feng et al., 2025；Colelough and Regli, 2025）
  - 多模态与跨组学整合：设计多模态LLMs处理DNA、RNA、蛋白质等数据；结合自监督学习与进化原理、调控网络，提升模型可靠性（Feng et al., 2023）
  - 临床与生物医学应用：加强模型临床验证与合规性；关注伦理考量，确保医疗安全性（Perlis and Fihn, 2023）
- 核心目标：推动LLMs在基因组学、精准医学中的突破，实现AI驱动生物发现
综述局限性（Limitations）
- 范围局限：聚焦DNA、RNA、蛋白质、单细胞分析，未深入覆盖表观基因组学、宏基因组学
- 时效性局限：LLMs领域发展迅速，部分最新突破未完全纳入
- 实证基准缺失：未开展标准化实验验证与性能评估，数据集与计算效率评估待完善
附录与补充信息
- 表1：代表性LLMs综合概述，含作者、时间、期刊、类型、数据集、任务、应用领域（如DNABERT、AlphaFold2等）
- 表2：不同LLM架构的平均训练时长与单设备显存统计（编码器-only：43GB显存，14天；解码器-only：46GB显存，5天；编码器-解码器：81GB显存，40天）
- 表3：精选LLMs计算成本量化 overview，含计算资源、单设备显存、训练时长（如DNABERT用8*NVIDIA 2080Ti，11GB显存；AlphaFold2用TPU v3，32GB显存，~28天训练）
- 伦理声明：无伦理问题
- 致谢：感谢评审反馈，列出研究资助机构与项目（香港中文大学、香港研资局等）
- 参考文献：引用200+相关研究，涵盖LLMs、生物信息学、基因组学等领域关键成果

相关问题

什么是随机自回归机制

一、基础定义：自回归与随机的结合

随机自回归机制是一种序列生成框架，核心是在 “自回归” 的生成逻辑基础上，引入 “随机采样” 以打破确定性输出，从而生成更多样、更贴近真实数据分布的结果。

自回归（Autoregressive）：生成序列时，每一步的输出依赖于前序所有已生成的结果（即 “用历史预测未来”）。例如生成句子时，第t个词的选择依赖于第1到(t-1)个词；生成 DNA 序列时，第t个碱基（A/T/C/G）依赖于前(t-1)个碱基。
随机（Stochastic）：每一步生成并非输出 “概率最高的唯一结果”，而是从当前步骤的概率分布中随机采样结果（如通过 Softmax 输出的类别概率分布、高斯分布等），让生成过程具备不确定性。

二、核心原理：两步驱动的序列生成

随机自回归机制的工作流程可分为 “概率建模” 和 “随机采样” 两个关键步骤，以离散序列（如文本、生物序列）和连续序列（如时间序列、图像像素）为例：

1. 第一步：自回归概率建模

模型通过神经网络（如 Transformer Decoder、RNN、LSTM）学习 “序列历史→当前输出” 的条件概率分布(p(x_t \mid x_1, x_2, ..., x_{t-1}))，即：

对于离散数据（如蛋白质序列的氨基酸类型）：模型输出当前位置所有可能类别的概率（如 20 种氨基酸的概率分布），通过 Softmax 函数归一化。
对于连续数据（如单细胞基因表达量的时间序列）：模型输出当前位置的概率分布参数（如高斯分布的均值(\mu)和方差(\sigma^2)），而非直接输出确定值。

这一步的核心是 “捕捉序列依赖”—— 模型需学习数据内在的时序 / 顺序规律（如 DNA 中启动子区域的碱基排列偏好、蛋白质二级结构对应的氨基酸序列模式）。

2. 第二步：基于概率分布的随机采样

为避免生成结果 “机械重复”（确定性自回归的常见问题），模型从第一步建模的概率分布中随机选择输出值，而非直接取概率最大的 “贪心选择”。常见的采样策略包括：

基础采样（Sampling）：直接根据类别概率随机挑选（如概率 0.3 的 A、0.5 的 T、0.2 的 C 中，有 50% 概率选 T）。
温度调节采样（Temperature Sampling）：通过 “温度参数T” 调整分布的 “尖锐度”——(T>1)时分布更平缓（多样性更高，可能生成异常结果），(T<1)时分布更尖锐（多样性降低，更接近贪心选择）。
_top-k 采样：仅从概率最高的k个候选中采样（如仅选前 5 个概率最高的氨基酸），平衡多样性与合理性。

例如在蛋白质序列生成中，若模型预测当前位置氨基酸的概率为 “亮氨酸（0.4）、丙氨酸（0.3）、缬氨酸（0.2）、其他（0.1）”，通过随机采样可能生成亮氨酸（概率 0.4）或丙氨酸（概率 0.3），而非固定选择亮氨酸。

三、关键特性：为何需要 “随机” 与 “自回归”？

1. 自回归的必要性：适配 “有序依赖” 数据

许多真实世界数据具有强序列依赖性—— 后续元素的分布由前序元素决定，必须通过自回归建模才能捕捉这种规律：

生物序列：DNA 的基因编码区需遵循 “密码子三联体” 规则（3 个碱基对应 1 个氨基酸），前两个碱基的选择会限制第三个碱基；RNA 的二级结构（如茎环）依赖碱基间的互补配对（A-U、G-C），前序碱基的排列直接影响后续折叠。
自然语言：句子 “我今天吃了____” 中，空格处的词（如 “苹果”“米饭”）依赖前序语境，无法独立生成。

若不采用自回归，直接生成整个序列（如非自回归模型），会丢失这种精细的依赖关系，导致生成结果不符合数据逻辑（如 DNA 出现无效密码子、句子语法混乱）。

2. 随机的必要性：提升生成多样性与泛化性

确定性自回归（如贪心选择）会导致 “模式坍塌”—— 生成结果高度重复（如每次都生成相同的蛋白质序列、相同的句子），无法覆盖真实数据的复杂分布。而随机采样的核心价值在于：

模拟真实数据的不确定性：生物序列的进化本身具有随机性（如基因突变的概率性），随机自回归可生成多种 “合理但不同” 的序列，更贴近自然规律。
支持探索性任务：在药物设计中，需生成多种潜在的活性蛋白质序列；在单细胞数据分析中，需模拟不同细胞状态下的基因表达序列 —— 随机机制可提供更多候选方案，助力发现新规律。

什么是自监督方式

“自监督方式（Self-Supervised Learning, SSL）” 是机器学习的核心范式之一，其核心逻辑是无需人工标注数据，而是从数据本身的内在结构、关联性或上下文信息中自动挖掘 “监督信号”，实现模型的预训练与特征学习。这种方式解决了传统监督学习对 “大规模人工标注数据” 的依赖问题，在生物信息学（如你关注的 LLM 与基因组 / 蛋白质研究）、计算机视觉、自然语言处理等领域应用广泛，是当前 AI 技术突破的关键支撑。

一、核心定义：“自己监督自己” 的本质

自监督学习的核心是 “从数据中生成标签”—— 无需人类手动标注（如给 DNA 序列标注 “启动子区域”、给蛋白质序列标注 “功能类别”），而是通过设计 “ pretext task（ pretext 任务，即‘伪任务’）”，让模型从原始数据中自动提取监督信号（即 “伪标签”），并基于这些信号学习数据的深层特征。

例如：给模型输入一段 DNA 序列 “ATCGGCTA...”，通过 “掩盖其中某个碱基（如把第 5 位的‘G’换成‘[MASK]’）”，让模型预测被掩盖的碱基是什么 —— 这里的 “被掩盖碱基” 就是模型自动生成的 “伪标签”，模型通过学习 “上下文碱基→被掩盖碱基” 的映射关系，间接掌握 DNA 序列的内在规律（如碱基互补配对、特定功能区域的序列模式）。

二、自监督方式的关键要素

要实现自监督学习，需满足两个核心条件，这也是其与监督学习、无监督学习的本质区别：

自动构建监督信号：监督信号来自数据本身，而非人工标注。例如：
- 文本 / 生物序列：用 “上下文预测中间元素”（如 BERT 的 Masked Language Model 任务）；
- 图像：用 “旋转后的图像预测旋转角度”“裁剪的图像块拼接还原”。
“伪任务” 服务 “真实任务”：设计的 “伪任务” 本身不是最终目标，而是通过伪任务让模型学习到 “可迁移的通用特征”，再将这些特征用于下游真实任务（如用 DNA 序列的上下文特征预测 “启动子区域”、用蛋白质序列特征预测 “3D 结构”）。

三、自监督方式的典型实现思路（结合生物信息学场景）

在关注的基因组、RNA、蛋白质及 LLM 研究中，自监督方式的实现高度贴合生物数据的特性（如序列性、结构性），常见思路可分为三类：

1. 序列掩码与预测（最核心的 LLM 预训练思路）

针对 DNA、RNA、蛋白质等 “线性序列数据”，通过 “掩盖序列中的部分元素”，让模型基于上下文预测被掩盖的元素，从而学习序列的内在依赖关系（如碱基排列规律、氨基酸组合模式）。

实例 1：DNA/RNA 序列的掩码预测

如文献中提到的DNABERT “基于上下游核苷酸上下文捕捉基因组 DNA 序列的全局理解”—— 其预训练阶段采用 “Masked Nucleotide Model（掩码核苷酸模型）”：随机掩盖 DNA 序列中 15% 的碱基（如 A/T/C/G），用 “[MASK]” 替换，然后让模型根据被掩盖碱基的前后序列（如 “AT [MASK] CG”）预测真实碱基。通过该任务，模型自动学习到 “启动子区域的碱基偏好”“密码子三联体规则” 等特征，后续可直接微调用于 “转录因子结合位点预测”“基因功能分类” 等下游任务。
实例 2：蛋白质序列的掩码预测

如ESM-1b “通过对 2.5 亿条蛋白质序列的自监督学习推断结构与功能”—— 预训练时随机掩盖序列中 15% 的氨基酸（如亮氨酸、丙氨酸），模型通过上下文预测被掩盖的氨基酸类型，间接掌握 “蛋白质二级结构（如 α- 螺旋、β- 折叠）对应的氨基酸序列模式”，后续无需重新训练，即可快速适配 “蛋白质功能注释”“突变影响预测” 等任务。

2. 序列重构与对比（挖掘数据的全局关联性）

通过 “打乱序列片段→让模型还原” 或 “构建相似 / 不相似序列对→让模型区分”，让模型学习数据的全局结构与相似性特征，适用于长序列（如基因组、单细胞转录组）的特征提取。

实例 1：序列片段排序

对长 DNA 序列（如人类染色体片段）进行随机切割，得到多个短片段（如 100 个碱基的片段 A、B、C），然后打乱片段顺序（如 B、A、C），让模型预测 “正确的片段排列顺序”。通过该任务，模型学习到 DNA 序列的 “长程依赖关系”（如不同功能区域的先后顺序），可用于 “基因组组装”“染色体结构分析”。
实例 2：对比学习（Contrastive Learning）

如单细胞分析中的scBERT “通过自监督预训练学习基因 - 基因相互作用”—— 对同一细胞的转录组数据（基因表达矩阵）进行 “轻微扰动”（如添加微小噪声、替换少量基因表达值），生成 “相似样本对”（同一细胞的扰动前后数据）；同时随机选取其他细胞的转录组数据作为 “不相似样本对”。模型通过学习 “区分相似与不相似样本对”，自动捕捉 “细胞类型特异性的基因表达模式”，后续可直接用于 “细胞类型注释”“疾病细胞亚群识别”。

3. 跨模态关联学习（适用于多类型生物数据）

当数据包含多种模态（如 DNA 序列 + 对应的基因表达数据、蛋白质序列 + 3D 结构数据）时，通过 “建立不同模态间的关联” 生成监督信号，让模型学习跨模态的统一特征表示。

实例：蛋白质 “序列 - 结构” 关联预测

如AlphaFold3 的预训练阶段，利用已知的蛋白质 “氨基酸序列” 与 “3D 结构” 数据，设计 “用序列预测局部结构特征（如氨基酸间的距离、角度）”“用结构片段预测对应的序列片段” 等任务。模型通过学习 “序列 - 结构” 的内在关联，自动掌握 “结构决定功能” 的规律，后续可直接用于 “未知蛋白质的 3D 结构预测”。

四、自监督方式的核心优势（为何在生物信息学中至关重要）

生物信息学领域的核心痛点是 “数据量大但标注少”（如人类基因组有 30 亿个碱基，但人工标注的 “功能区域” 仅占极小比例；蛋白质数据库有上亿条序列，但已知 3D 结构的仅百万级），自监督方式恰好解决了这一痛点：

无需人工标注，降低成本：可直接利用海量未标注生物数据（如公开的 DNA 序列库、RNAcentral、UniProt 等）进行预训练，无需投入大量人力标注。
学习通用特征，适配多任务：通过自监督学到的特征（如 DNA 的碱基依赖、蛋白质的序列模式）具有 “通用性”，可快速微调用于多个下游任务（如一个预训练的 DNA-LLM，可同时适配 “启动子预测”“突变影响分析”“基因表达预测”）。
捕捉生物数据的深层规律：生物数据的内在关联性（如 DNA 的调控网络、蛋白质的结构 - 功能关联）难以通过人工标注完全覆盖，自监督方式可自动挖掘这些隐性规律，提升模型的生物学解释性。

五、自监督方式与其他学习范式的对比

为更清晰理解其定位，可将自监督学习与监督学习、无监督学习对比：

学习范式	监督信号来源	核心特点	生物信息学应用实例	缺点
自监督学习	数据本身（自动生成）	无需人工标注，学习通用特征，可迁移	DNABERT 预训练（掩码碱基预测）、ESM-1b 预训练	伪任务设计依赖领域知识，部分场景特征可解释性弱
监督学习	人工标注数据	目标明确，任务性能高	用标注的 “启动子序列” 训练模型预测启动子	依赖大规模标注数据，标注成本高，泛化性差
无监督学习	无监督信号（仅聚类）	探索数据分布，无明确目标	对单细胞数据进行聚类（如 Seurat 的 PCA 聚类）	难以学习任务相关特征，性能通常低于自监督

六、总结

自监督方式的本质是 “从数据中挖掘监督信号，让模型自己教自己”，其核心价值在于突破了生物信息学中 “数据多、标注少” 的瓶颈。在你关注的 LLM 与生物信息学研究中，无论是 DNABERT、ESM 等序列模型的预训练，还是 scBERT、Geneformer 等单细胞分析模型的开发，自监督方式都是实现 “模型从‘能处理数据’到‘能理解生物规律’” 的关键技术，也是当前 AI 驱动生物发现（如基因编辑、蛋白质设计、疾病诊断）的核心支撑。

posted @ 2025-10-15 17:48 Seryn 阅读(13) 评论(0) 收藏举报

刷新页面返回顶部

seryn

想要和得到，中间还有两个字，那就是要做到