打破跨公司数据孤岛以训练全基因组预测模型:小麦可行性研究

德国莱布尼茨植物遗传与作物研究所(IPK)的Yusheng Zhao团队联合多家德国育种公司(W. von Borries-Eckendorf, Deutsche Saatveredelung AG, KWS SAAT SE & Co. KGaA, Nordsaat Saatzucht GmbH, KWS LOCHOW GmbH, SU BIOTEC GmbH)在国际知名期刊《Plant Biotechnology Journal》上发表了题为“Breaking down data silos across companies to train genome-wide predictions: A feasibility study in wheat”的论文。该研究揭示了整合来自四个商业小麦育种项目和历史公共-私营合作项目的大规模、异构表型与基因型数据是可行的,并且能够显著提高小麦产量、株高和抽穗期等关键农艺性状的基因组预测准确性。然而,研究也发现预测能力的提升随着训练集规模的增加(超过约4000个基因型后)会达到一个*台期,且该*台显著低于理论预测上限。

图片

背景

基因组预测通过整合基因型和表型数据,能够高效估计候选品种的遗传价值,缩短育种周期,尤其适用于多基因控制的复杂农艺性状。尽管传统线性模型(如GBLUP)在植物育种中广泛应用,但深度学习方法(如卷积神经网络,CNN)因能捕捉非线性关系和大规模数据模式而备受关注。然而,单一机构的数据规模限制了深度学习的潜力,跨公司/机构的数据整合成为突破数据孤岛、提升预测能力的关键。本研究以小麦自交系为对象,整合4个商业育种项目及历史公私合作数据,探索跨数据孤岛整合对基因组预测的影响。

方法

    1. 数据整合与预处理
  • • 整合12年、168个环境的表型数据(粒重、株高、抽穗期),涉及9500个基因型,涵盖公共-私人合作历史数据及4家公司的商业育种数据。

  • • 基因型数据通过SNP芯片检测,针对不同*台的缺失数据采用BEAGLE进行插补,分宽松(≤80%缺失)和严格(≤30%缺失)标准筛选标记,最终获得覆盖小麦基因组的高密度SNP数据集。

    1. 分析方法
  • 表型数据质量控制:通过混合线性模型计算最佳线性无偏估计(BLUEs),估计广义遗传力。

  • 基因组预测模型:比较GBLUP与CNN的性能,评估训练集大小(10%-80%基因型)、环境/年份数量、数据来源组合对预测能力的影响。

  • 种群结构分析:基于Rogers距离的主坐标分析(PCoA)检测遗传亚群,验证数据互操作性。

数据处理步骤的示意图概述

数据处理步骤的示意图概述

插补数据基础和准确性

插补数据基础和准确性

实验级数的前三个主坐标 (Srs.),基于 Rogers 线之间的距离

实验级数的前三个主坐标 (Srs.),基于 Rogers 线之间的距离

表型数据质量的衡量标准图

表型数据质量的衡量标准图

结果

    1. 数据质量与互操作性
  • 基因型插补:块掩码和随机掩码策略均显示高插补精度(75%分位数≥0.93),整合后的数据无明显遗传亚群结构,确保跨数据集兼容性。

  • 表型质量:遗传力高(抽穗期0.86-0.98,株高0.81-0.99,粒重0.74-0.93),验证数据可靠性。

    1. 预测能力分析
  • 训练集规模效应:预测能力随训练集增大而提升,在4000个基因型时达峰值,进一步增大后增益递减并趋**台期(远低于遗传力*方根的理论上限)。

  • 模型比较:小训练集(<4000基因型)时GBLUP优于CNN,大训练集时CNN性能接*GBLUP,两者差异随数据规模缩小。

  • 环境与年份影响:增加训练集中的环境数(≥6个/基因型)和年份数(5年 vs. 2年)可提升预测能力,显示环境多样性的重要性。

跨实验序列预测能力

跨实验序列预测能力

共享育种相关特征的跨系列训练集的产量预测能力

共享育种相关特征的跨系列训练集的产量预测能力

讨论

    1. 数据整合可行性
  • • 跨公司数据通过统一表型标准(如德国官方品种测试方法)和基因型插补技术实现互操作,证明公私合作模式下数据整合的可行性。

  • • 种群结构弱分化(PCoA显示遗传多样性互补而非隔离)是跨数据集预测有效的关键,适用于遗传背景相似的中欧小麦育种群体。

    1. 预测能力瓶颈与突破方向
  • • *台期的出现可能与遗传多样性增加导致的连锁不*衡(LD)减弱、模型未充分捕捉非线性效应有关。

  • • 未来可通过设计针对性训练集(如与测试集高相关的亚群)、开发新型非线性模型(如结合LD的深度学习方法)突破瓶颈,充分利用跨公司大数据优势。

    1. 方法论与应用价值
  • • GBLUP在中等规模数据中仍具优势,而CNN的线性时间复杂度使其在超大规模数据中潜力更大,需进一步优化计算效率。

  • • 数据受托人(如学术机构)的中立角色对促进商业数据共享至关重要,为中小型育种企业提供低成本高效益的基因组预测解决方案。

结论

本研究证明跨公司数据整合可有效提升小麦自交系基因组预测能力,揭示训练集规模、数据质量和模型选择的关键作用。尽管存在*台期限制,通过优化数据整合策略和开发先进模型,有望进一步释放大数据在植物育种中的潜力,推动精准育种技术的跨机构协同创新。

图片

posted @ 2025-06-15 20:15  生物信息与育种  阅读(2)  评论(0)    收藏  举报