西安交通大学孙贺全团队提出智慧育种框架“平行种子”
平行种子:从基础模型到农业可持续发展的基础智能
全球人口增长、气候变化与耕地减少正威胁粮食安全,传统作物育种效率低、周期长,如何破局?西安交通大学自动化学院孙贺全教授联合中科院自动化所和西北农林科技科技大学在国际顶级期刊《IEEE/CAA Journal of Automatica Sinica》发表新的研究框架:平行种子(Parallel Seeds),提出采用基础模型(Foundation Models)在数字虚拟空间解码作物基因型与表型的复杂关系,指导现实世界农业可持续发展。
摘要
农业发展面临人口增长、气候变化、土地退化和环境污染等重大挑战,威胁全球粮食安全。为此,可持续农业的发展势在必行,而其基础环节之一是作物育种,以改善农艺或经济性状,例如在提高作物产量的同时减少资源使用和环境污染。作物育种旨在识别或创造有益遗传变异,通过遗传杂交将变异结合,并在后代中固定这些变异。在过去的一万年里,它经历了驯化、遗传杂交、分子标记辅助选择(MAS)和转基因育种等阶段(图1)。这些还原论方法专注于少数已知基因以实现目标性状,却往往忽略更广泛的遗传背景,导致意外的表型差异和育种效率低下。
基于信息与系统理论,作物育种是一个优化复杂系统的过程,其中遗传(微观)和环境(宏观)要素通过未知的生物逻辑相互作用。作物性状(如产量)是这些相互作用的宏观结果。为提高育种效率,作物育种应考虑完整的遗传背景并采用整体计算系统方法。生物技术和信息技术的进步为开发准确关联分子要素与作物表型的系统方法铺平了道路。基因组选择(GS)利用机器学习技术从遗传杂交中预测后代性状,但在处理大规模遗传标记时面临困难,预测植物生长特性的准确性较低。近年来,ChatGPT等基础模型(FM)在处理人类自然语言时展现出强大的学习和泛化能力,Sora等先进模型甚至能从文本生成视频场景。这些进展为理解遗传要素复杂的非线性相互作用提供了有前景的新解决方案。
通过收集、验证、整合和标准化遗传与表型数据,可以构建基础分子语言模型(FMLM)来描述植物生长,有望超越GreenLab等现有的基于过程的模型。FMLM能够通过育种测试中的基础智能(FI)实现精准分子设计,解码分子语言。这种方法被称为“平行种子”,在农业元宇宙(AgriVerse)中基于ACP的信息-物理-社会系统(CPSS)中运行。
平行种子的定义
基于ACP理论,结合组学测序、大数据分析、人工智能(AI)、基础模型(FM)、基础智能(FI)和基因组选择(GS)等技术,平行种子包含两个并行的子系统(图1):一个是具有特定性状(如马铃薯块茎大小、水稻粒型等)的真实作物植株,由分子要素在环境条件下的相互作用形成;另一个是虚拟空间中的数字人工植物系统,由通过基因型和表型数据训练的FMLM表示。利用FMLM,可以通过计算模拟(C)预测两个亲本杂交是否能产生高性能后代。从这些测试中获得的FI并行设计现实育种的最优策略,形成循环因果关系——经验数据不断改进FMLM,进而提高育种的精准度和效率。
平行种子克服了人类认知在理解作物系统中数千个要素非线性相互作用的局限性,从系统层面解码植物生长并提高育种效率。此外,通过在虚拟空间中进行大部分计算测试,可减少化学污染、土地使用和劳动力需求,促进可持续农业。
挑战与机遇
在物理空间中,平行种子以时空分辨率收集、验证和整合所有遗传要素和高通量表型数据;在并行的信息空间中,构建和训练FMLM,进行大规模计算测试以生成FI,从而解读分子语言并制定优质育种方案。在此过程中,存在三大挑战,包括精准遗传要素选择(物理空间)、高通量表型分析(物理空间)和基础模型构建与训练(信息空间)。具体细节见补充文件的注释A–C和图S1、S2。
全面的遗传要素选择
作物基因组大小和倍性各异,包含基因和非编码序列等复杂要素,给遗传要素收集带来挑战。从Illumina、PacBio和ONT等二代到三代高通量测序技术,以及端粒到端粒(T2T)和泛基因组构建等基因组组装技术的进步,助力全面的遗传要素收集,为研究植物发育奠定基础。
高通量表型分析
表型分析是测量作物性状的过程,传统依赖人工测量。现代技术利用红外相机、无人机(UAV)和物联网(IoT)实现自动化数据收集。可见光成像(VLI)、光谱成像(SI)和断层扫描等成像技术支持非侵入式详细表型分析,计算机视觉技术进一步分析这些表型数据,推动平行种子所需的数据收集。
智能基础模型构建与训练
平行种子通过基础模型(如大型语言模型LLM)整合真实与人工系统,解码分子相互作用并预测育种结果。基于海量基因型和表型数据训练的FMLM遵循反馈循环,不断提升FI并指导育种。挑战包括开发针对作物育种的专用FMLM及其推理过程的可解释性。基础模型概述及应用见补充文件的注释C和图S2。
平行种子的FMLM框架
我们提出基于平行理论的多模态基础分子语言模型(FMLM)——PS-GPT(图2和补充文件图S3),包含四个主要模块:两个与基因型相关,两个与表型相关。
在模块I和II中,从基因组学、转录组学、甲基组学到蛋白质组学收集和分析基因型特征。这些特征通过两种方法转换到虚拟空间:一是利用DNA/RNA或蛋白质编码器处理实时测序数据;二是通过检索增强生成(RAG)在LLM中查询科学数据库,从语义层面描述特征。整合细胞层面和语义层面的特征,生成增强的基因型表示,再聚合成组织层面的特征。
在模块III和IV中,提取文本、图像和视频中的表型特征。模块III分析植物表型的文本信息,模块IV处理植物生长各阶段的图像和视频。两个模块均将特征嵌入低维连续向量空间,并采用双向自回归框架进行编码。
PS-GPT结合思维链(CoT)策略,在海量基因型和表型数据上训练后,可预测遗传杂交后代的表型。遵循循环因果理论不断优化的基础智能,能够制定精准育种策略,减少育种周期并提高效率。
PS-GPT推动育种向智慧育种转型,优化亲本品种选择,缩短育种周期,减少资源浪费,为可持续农业做出贡献。平行种子应对全球粮食供应挑战,有望在未来作物育种和农业可持续发展中实现革命性进展。
结论
本研究指出传统作物育种耗时且成功率低的瓶颈,探讨了利用先进生物技术和AI突破的挑战与机遇。在此基础上,提出基于基础模型的整体框架“平行种子”,用于智慧作物育种,解码特定环境条件下基因型-表型的因果关系。通过物理(植物)与信息(基础模型)系统的动态交互,平行种子旨在提高育种效率、缩短周期,解决技术瓶颈。关键问题包括海量基因型和表型数据的管理与分析,以及基础模型的构建,并讨论了潜在解决方案。平行种子致力于推动农业迈向可持续发展。
本文来自博客园,作者:生物信息与育种,转载请注明原文链接:https://www.cnblogs.com/miyuanbiotech/p/18929949。若要及时了解动态信息,请关注同名微信公众号:生物信息与育种。