JIPB综述:基于深度学习的基因组预测加速植物育种
基于深度学习的基因组预测加速植物育种
Shang Gao1,2†,Tingxi Yu1,2†,Awais Rasheed3,Jiankang Wang1,2,Jose Crossa4,Sarah Hearne4,Huihui Li1,2*
-
1. 中国农业科学院作物科学研究所,作物基因资源与种质创制国家重点实验室,国际玉米小麦改良中心中国办公室,北京 100081
-
2. 中国农业科学院南繁研究院,海南三亚 572024
-
3. 巴基斯坦真纳大学植物科学系,伊斯兰堡 45320
-
4. 国际玉米小麦改良中心(CIMMYT),墨西哥特斯科科 06600
† 这些作者对本工作贡献均等
-
• 通信作者:李慧慧(lihuihui@caas.cn)
-
摘要
与传统基因组预测方法相比,基于深度学习的基因组预测(DL-based GP)在植物育种中表现出广阔前景,尤其是在处理大规模复杂多组学数据集时。然而,其有效开发和广泛应用仍面临重大挑战,包括对高质量大规模数据集的需求、性能基准测试的不一致性,以及环境因素的整合问题。本文总结了阻碍DL-based GP模型发展的关键障碍,并提出未来发展方向,如模块化方法、数据增强和先进注意力机制等。
关键词:人工智能,深度学习,基因组预测,植物育种
植物育种中基因组预测任务的研究背景
传统植物育种依赖表型评估和标记辅助选择,难以从不断增长的多组学输入数据中高效捕捉相关模式。基因组预测(GP)整合分子标记,旨在准确预测表型表现。其效率受目标性状遗传结构、群体规模、连锁不平衡程度等因素影响。选择合适且信息丰富的模型是GP分析的关键前提。近年来,基于深度学习(DL)的模型因其自动特征提取能力和对高维数据的增强表征,在大数据驱动的GP中表现出与传统线性回归模型相当甚至更优的性能。
2016年,研究人员将多层感知机(MLP)模型应用于植物预测育种,随后该模型在小麦和玉米的GP中得到应用。然而,由于架构相对简单,MLP模型始终未能显著超越传统线性模型。随着DL的快速发展及其在GP中的应用,各种更新的神经网络架构涌现,性能日益提升。
当前基于DL的GP方法
在人工智能技术的推动下,植物育种中基于DL的GP方法持续改进。为GP带来实质性进步的首批DL模型是卷积神经网络(CNNs)。Ma等开发了用于基因组选择的DeepGS模型,采用包含一个卷积层、一个采样层、三个dropout层和两个全连接层的CNN架构。该研究将模型应用于2000个个体的小麦数据集,并使用广泛应用的线性方法——岭回归最佳线性无偏预测(RR-BLUP)进行性能基准测试。结果显示,DeepGS在8个性状上的预测精度与RR-BLUP相当,且在预测高育种值个体时相比RR-BLUP具有明显优势。
DL模型可处理多种类型的输入数据。Washburn等研究了多个CNN模型,通过整合重复试验和历史产量调查数据预测玉米产量,其中结合每日天气和历史调查数据的模型性能优于BLUP方法。Wang等开发了整合多组学数据的DL模型DNNGP,即使仅使用单核苷酸多态性(SNP)数据作为输入,其性能也显著优于传统模型。
SoyDNGP在CNN架构中引入坐标注意力模块,性能优于传统和DL基方法,这一改进归因于注意力模块利用位置信息的能力。GPformer采用基于Transformer的自注意力结构,整合独热编码的碱基变异和所有变异的物理位置信息,从全基因组水平识别特征表征。除预测精度提升外,这些DL-based GP方法还克服了传统方法(如贝叶斯模型)计算时间长的缺点,尤其在处理数千个品系的群体时。
这些最新进展可根据不同的发展策略和模型架构进行比较和分类。DeepGS、DNNGP、DeepCCR和SoyDNGP等方法依赖CNN架构,特别擅长从SNP阵列等结构化基因组数据中提取局部模式。同时,基于Transformer的模型如GPformer和Cropformer通过捕捉遗传变异间的长距离依赖增强特征提取,适用于序列数据。另一类模型如TrG2P和DEM整合多性状和功能基因组信息,通过利用生物学先验或迁移学习策略优化预测,提升模型泛化能力并促进基因发现。此外,Auto-GS和AutoGP等自动化框架为基因组选择提供用户友好平台,整合多种机器学习(ML)和DL模型,提高育种者的可及性。总之,这些创新表明DL-based GP在不同育种计划、群体结构和数据模式中的适应性不断增强。
发展DL-based GP模型的挑战
尽管取得初步成功,DL-based GP方法仍面临挑战。一个显著限制是对大规模数据集的依赖。植物育种中的DL方法通常限于数百至不超过1000个品系的小数据集。Wang等在2000个个体的小麦群体中研究群体规模梯度对DNNGP预测精度的影响,发现更大的群体与所有性状预测精度提升相关。Montesinos-López等使用包含4464个小麦品系的中等规模数据集测试多模态DL模型,多个性状的预测精度高于GBLUP。在超过10,000个大豆品系上对SoyDNGP进行的样本规模梯度测试发现,随着训练样本量增加,回归和分类模型的预测精度逐步提高。与图像处理、语义信息挖掘和蛋白质结构预测等领域的报道类似,DL-based GP的性能似乎随数据集规模扩大而提升。
从另一角度看,数据集规模的增加为训练具有数百万至数十亿参数的模型提供了可能。以ChatGPT为代表的基础模型通过在包含多样场景的大规模数据集上训练,再在特定小数据集上微调。这一方法可应用于植物育种:首先对海量基因组和表型数据进行大规模无监督学习,然后使用育种者的特定实验数据进行目标微调。这种策略有助于开发鲁棒的通用模型,进而针对特定育种计划进行定制。
多项研究表明,纳入环境因素(E)和基因型-环境互作(G×E)信息可显著提升GP预测能力。DL模型为利用环境数据提供了多种途径,整合环境因素的多种策略可能提升GP模型性能,包括提取相关环境特征的特征工程、丰富环境数据多样性的数据增强技术(如生成对抗网络、添加高斯噪声),以及优化处理多模态输入的模型架构设计(如图神经网络、带交叉注意力的Transformer)。我们认为,将环境数据整合到GP中是DL-based GP工具未来发展的一个极具潜力的方向。
DL(乃至计算机科学研究的许多领域)的一个常见挑战是不同研究中同一模型的性能基准测试方法不一致。例如,尽管使用相同的小麦数据集,两项研究中DNNGP的性能报告存在明显差异。我们主张,报道DL-based GP方法的作者应提供超参数设置、模型配置环境、训练框架和源代码等细节,以提高模型的可重复性和透明度。两项DNNGP研究的差异反映了预测精度度量指标和参数调优的不同(计算资源投入差异显著)。随着DL在GP中的应用持续扩展,性能基准测试方法的不一致可能误导用户,阻碍研究和应用进展。制定和推广标准化的DL模型评估框架可改善这一状况,包括(但不限于)超参数优化协议和统一的模型评估标准与指标。
基于DL的GP模型合理开发方法
开发用于GP的DL方法时,建议首先充分理解输入数据和预测任务,将传统ML和统计模型作为主要探索工具,并作为与DL模型比较的基准模型,以确定最适合特定任务的解决方案。鉴于分类和回归任务可用模型众多,在初始阶段通过经验性试错法筛选最佳模型通常是最谨慎的策略。因此,开发和选择最优模型的合理策略包括:训练和优化多种方法,选择在验证集上表现最佳的模型,最终使用独立测试集评估其性能(图1)。
在模型训练过程中,数据分为训练集、验证集和测试集。训练集用于更新模型参数,验证集用于监控训练过程、选择超参数并防止过拟合。确保训练集和测试集之间无数据泄漏至关重要,且测试集应足够大以提供可靠结果,并反映未来应用中的真实场景(图1B, C)。此外,需通过随机搜索、网格搜索或贝叶斯优化结合K折交叉验证等方法调整模型训练,利用验证集监控潜在过拟合,同时不干扰训练(图1D)。最后,测试集用于评估模型在未参与训练或验证的数据上的性能,客观衡量模型的泛化能力(图1E)。
模型选择取决于预测任务、技术趋势和数据适用性。使用DL模型应源于数据和问题的特定需求,而非简单模仿其他研究。当前最佳实践是将新模型与表现良好的现有模型进行比较,如统计模型RR-BLUP、基于ML的CatBoost和LightGBM,以及基于DL的DNNGP和SoyDNGP等。比较多种模型类型可提供更全面的结果解释。此外,在模型评估过程中,建议根据任务性质和重要性选择合适的评估指标,或结合多个指标评估模型整体性能。
我们以包含20,087个大豆种质和42,509个高可信度SNP的大豆数据集为例,说明模型比较的选择和训练过程。在初始模型选择阶段,从ML库中选取31个分类和回归模型作为基因组选择中分类和回归任务的基准测试模型(表S1)。随后使用临界差异图评估这些模型在多个性状分类和回归任务上的性能,根据评估结果对模型排序,最终选择性能较好的模型作为基准(图1F, G;表S2, S3)。在进一步优化训练中,选择排名前二的ML模型CatBoost和LightGBM以及统计模型RR-BLUP,与DNNGP模型进行性能比较(图1H)。结果显示,DNNGP模型在分类任务的预测性能上优于最优ML模型CatBoost和LightGBM以及统计模型RR-BLUP;在回归任务中,DNNGP与这三个模型的综合性能相当。
扩展GP:整合基于DL的基因发现
基因发现可加深对复杂性状生物学基础的理解,为指导合理分子设计和智能育种策略提供重要基础。基于DL的基因发现利用DL算法从大规模基因组和多组学数据中识别功能基因和遗传互作,助力更精准地理解复杂性状。创新的DL基基因发现方法为提升植物育种中的GP提供了有前景的途径。通过利用与目标性状相关的基因和遗传互作网络,可改善GP模型的预测能力。近期研究已使用DL方法探索植物中与盐胁迫相关的基因和遗传网络,这些研究识别的相关基因可作为权重层或替代输入数据整合到GP模型中,优化相关性状GP的模型性能。展望未来,ML、植物基因组学和育种领域研究人员的合作将推动基因发现与GP的整合。与超参数优化类似,开发用于纳入发现的基因和遗传网络的标准化框架和协议,几乎可以肯定会促进针对不同物种和育种计划中特定性状的有效GP模型的开发。
结论与展望
DL模型具有模块化特性,可被概念化为“乐高式”结构,即允许在成熟架构中添加新功能模块以提升性能。单个模块的性能可独立升级,然后重新整合到模型架构中。为增强用于GP的DL模型,我们提出两个急需的“乐高模块”:数据增强和先进注意力机制(图1I)。数据增强通过整合多样的基因型、表型和环境数据丰富训练数据集;整合自注意力和/或交叉注意力等先进注意力机制,有望提升模型聚焦不同数据类型相关特征的能力。标准化处理特定数据类型的DL模块将简化模型开发,降低植物育种界的应用门槛和协作障碍。
随着AI工具在植物育种中的应用不断演进,我们预期DL-based GP将与合成生物学、基因编辑和高通量表型分析等新兴领域加速融合。显然,将AI工具整合到植物育种实践中有望缩短世代间隔,从而加速性状改良。然而,要充分释放DL-based GP在植物育种中的潜力,必须促进更广泛的行业参与和跨学科合作。DL模型在植物育种各阶段的开发与应用需要农业、计算生物学和ML等领域专家的共同贡献。跨部门的广泛整合努力将助力DL-based GP方法蓬勃发展,确保其在不同育种计划中快速有效应用。
国际合作对DL-based GP的持续发展也至关重要,尤其是在急需大规模高质量数据的情况下。加强全球伙伴关系可促进大规模田间试验的整合,生成更全面的育种数据集,这是开发更优DL-based GP模型的基础。此类合作还将推动全球专家共同开展算法创新,最终加快DL在植物育种中的应用步伐。通过跨国分享数据和专业知识,我们能够开发更鲁棒、通用的GP方法,应对全球育种者面临的多样化挑战。
展望未来,AI驱动的植物育种的未来依赖于这些协作努力,不仅限于单个国家,而是全球范围,以释放GP模型的真正潜力。随着我们不断突破技术边界,跨学科合作和国际伙伴关系将成为加速DL算法在植物育种中应用和推动全球作物改良的核心。
致谢
本研究得到国家自然科学基金(32361143514)、海南省自然科学基金(624MS119)和中国农业科学院创新计划(CAAS-CSIAF-202303)的支持。
作者贡献
H.L. 提出原始想法并设计研究;S.G. 和H.L. 撰写初稿;T.Y. 进行数据分析;A.R.、J.W.、J.C. 和S.H. 对实验设计和结果解释提供建设性建议;所有作者阅读并批准最终稿件。
本文来自博客园,作者:生物信息与育种,转载请注明原文链接:https://www.cnblogs.com/miyuanbiotech/p/18929637。若要及时了解动态信息,请关注同名微信公众号:生物信息与育种。