Brief Bioinform | 一种深度学习小麦基因组预测方法(WheatGP)

全基因组预测是如今作物育种的核心技术之一,能够有效缩短育种周期。近年来基于深度学习的全基因组预测技术快速发展,已初步应用于水稻、玉米、大豆等主要作物。然而,小麦的多倍体结构涉及复杂的等位基因之间的相互作用以及明显的非加性效应,使其在复杂性状的预测中面临着诸多挑战。

2025年4月,山东农业大学智农AI科技创新团队在TOP期刊《Briefings in Bioinformatics》发表了题为WheatGP, a genomic prediction method based on CNN and LSTM的研究论文。研究团队基于卷积神经网络(CNN)和长短期记忆神经网络(LSTM)提出了一种小麦基因组预测方法(WheatGP),利用了多层CNN捕获基因组序列中的短程依赖性和LSTM独特的门控机制,提取并保留基因位点之间长距离的依赖关系。


背景知识

小麦作为全球主要粮食作物之一,对保障粮食安全至关重要。然而,小麦复杂的遗传结构和性状变异给培育优良品种带来了挑战。GS作为一种基于全基因组测序数据和表型数据预测不同表型的育种方法,已被广泛应用于小麦新品种的培育。基因组预测(GP)是GS的关键步骤,近年来取得了显著进展。传统的GP方法如基于回归的技术在分析高维数据时存在局限性,而基于机器学习(ML)的GP方法能够模拟基因型和表型之间复杂的非线性关系。


研究方法

文章提出的WheatGP方法结合了CNN和LSTM,以提高对小麦表型的预测准确性。WheatGP由多个模块和块组成,能够有效地从基因组数据中学习多层次的特征。CNN模块专注于学习局部特征,而LSTM模块则用于进一步提取全局特征,并模拟基因位点之间的长距离依赖关系。最终,全连接层将提取的特征映射到样本标签空间,实现小麦表型的预测。

CNN模块

CNN模块包含三个卷积层,每个卷积层后跟一个ReLU激活函数。通过滑动窗口方式的卷积操作,提取输入基因序列中局部单核苷酸多态性(SNPs)之间的特征信息,生成一系列特征向量。

LSTM模块

LSTM模块的主要组成部分包括遗忘门、输入门和输出门。通过遗忘门丢弃之前的信息,输入门控制记忆细胞接受输入信息,输出门根据当前细胞状态决定输出到LSTM单元隐藏状态的信息。


实验

实验使用了两个主要的小麦数据集:wheat599wheat2000wheat599包含599个品种在四种代表性环境下的产量数据,每个品种使用1279个标记进行基因分型。wheat2000包含2000个伊朗面包小麦的地方品种,每个品种使用33,709个标记进行基因分型。此外,还使用了水稻和玉米数据集来综合评估WheatGP的性能。


关键结论

  • 预测准确性:WheatGP在预测小麦产量和多种农艺性状方面表现出色,预测准确率在不同环境下达到0.73,对于各种农艺性状的预测准确率在0.62到0.78之间。与其他方法(如rrBLUP、XGBoost、SVR和DNNGP)相比,WheatGP在预测准确性上具有明显优势。
  • 跨环境预测:通过转移学习,WheatGP能够在不同环境下提高预测性能,显著降低预测偏差。
  • 计算效率:尽管WheatGP的参数数量较多,导致训练时间较长,但在推理阶段表现出显著的计算效率,通常在几秒钟内完成推理任务。通过使用降维后的特征矩阵作为输入,可以加速训练和推理速度。
  • 输入维度的影响:实验表明,使用主成分分析(PCA)降维后的特征作为输入,WheatGP能够实现与原始基因型矩阵相当的预测准确性,同时提高了训练速度。
  • 模型解释性:通过SHAP(SHapley Additive exPlanations)分析,可以量化特征对模型预测的贡献,揭示特征重要性的分布模式,为后续的特征选择、模型改进和生物学意义探索提供明确方向。

小麦数据集不同方法比较。

不同环境迁移学习。

影响因素。

降维特征表现。

玉米和水稻数据集的表现。


讨论

文章讨论了WheatGP在不同作物上的适应性,指出虽然WheatGP在小麦上表现出色,但在玉米和水稻上的表现需要根据具体作物的基因组结构和性状变异进行调整。此外,文章强调了在基因组选择建模中,没有一种方法适用于所有情况,需要根据每个预测任务的具体要求仔细比较不同方法,以确定最合适的模型。最后,文章提出了将GWAS结果整合到WheatGP中,以提高模型解释性的未来研究方向。


结论

WheatGP作为一种高性能的小麦基因组预测工具,不仅在预测小麦产量和农艺性状方面表现出色,还展示了跨物种适应性和鲁棒性。通过降维输入和SHAP分析,WheatGP在保持高预测准确性的同时,提高了计算效率和模型解释性,为小麦育种提供了新的可能性。

GitHub:
https://github.com/Breed-AI/WheatGP.git

 

posted @ 2025-07-12 22:49  生物信息与育种  阅读(22)  评论(0)    收藏  举报