打破跨公司数据孤岛以训练全基因组预测模型:小麦可行性研究
德国莱布尼茨植物遗传与作物研究所(IPK)的Yusheng Zhao团队联合多家德国育种公司(W. von Borries-Eckendorf, Deutsche Saatveredelung AG, KWS SAAT SE & Co. KGaA, Nordsaat Saatzucht GmbH, KWS LOCHOW GmbH, SU BIOTEC GmbH)在国际知名期刊《Plant Biotechnology Journal》上发表了题为“Breaking down data silos across companies to train genome-wide predictions: A feasibility study in wheat”的论文。该研究揭示了整合来自四个商业小麦育种项目和历史公共-私营合作项目的大规模、异构表型与基因型数据是可行的,并且能够显著提高小麦产量、株高和抽穗期等关键农艺性状的基因组预测准确性。然而,研究也发现预测能力的提升随着训练集规模的增加(超过约4000个基因型后)会达到一个*台期,且该*台显著低于理论预测上限。
背景
基因组预测通过整合基因型和表型数据,能够高效估计候选品种的遗传价值,缩短育种周期,尤其适用于多基因控制的复杂农艺性状。尽管传统线性模型(如GBLUP)在植物育种中广泛应用,但深度学习方法(如卷积神经网络,CNN)因能捕捉非线性关系和大规模数据模式而备受关注。然而,单一机构的数据规模限制了深度学习的潜力,跨公司/机构的数据整合成为突破数据孤岛、提升预测能力的关键。本研究以小麦自交系为对象,整合4个商业育种项目及历史公私合作数据,探索跨数据孤岛整合对基因组预测的影响。
方法
-
- 数据整合与预处理:
-
• 整合12年、168个环境的表型数据(粒重、株高、抽穗期),涉及9500个基因型,涵盖公共-私人合作历史数据及4家公司的商业育种数据。
-
• 基因型数据通过SNP芯片检测,针对不同*台的缺失数据采用BEAGLE进行插补,分宽松(≤80%缺失)和严格(≤30%缺失)标准筛选标记,最终获得覆盖小麦基因组的高密度SNP数据集。
-
- 分析方法:
-
• 表型数据质量控制:通过混合线性模型计算最佳线性无偏估计(BLUEs),估计广义遗传力。
-
• 基因组预测模型:比较GBLUP与CNN的性能,评估训练集大小(10%-80%基因型)、环境/年份数量、数据来源组合对预测能力的影响。
-
• 种群结构分析:基于Rogers距离的主坐标分析(PCoA)检测遗传亚群,验证数据互操作性。
数据处理步骤的示意图概述
插补数据基础和准确性
实验级数的前三个主坐标 (Srs.),基于 Rogers 线之间的距离
表型数据质量的衡量标准图
结果
-
- 数据质量与互操作性:
-
• 基因型插补:块掩码和随机掩码策略均显示高插补精度(75%分位数≥0.93),整合后的数据无明显遗传亚群结构,确保跨数据集兼容性。
-
• 表型质量:遗传力高(抽穗期0.86-0.98,株高0.81-0.99,粒重0.74-0.93),验证数据可靠性。
-
- 预测能力分析:
-
• 训练集规模效应:预测能力随训练集增大而提升,在4000个基因型时达峰值,进一步增大后增益递减并趋**台期(远低于遗传力*方根的理论上限)。
-
• 模型比较:小训练集(<4000基因型)时GBLUP优于CNN,大训练集时CNN性能接*GBLUP,两者差异随数据规模缩小。
-
• 环境与年份影响:增加训练集中的环境数(≥6个/基因型)和年份数(5年 vs. 2年)可提升预测能力,显示环境多样性的重要性。
跨实验序列预测能力
共享育种相关特征的跨系列训练集的产量预测能力
讨论
-
- 数据整合可行性:
-
• 跨公司数据通过统一表型标准(如德国官方品种测试方法)和基因型插补技术实现互操作,证明公私合作模式下数据整合的可行性。
-
• 种群结构弱分化(PCoA显示遗传多样性互补而非隔离)是跨数据集预测有效的关键,适用于遗传背景相似的中欧小麦育种群体。
-
- 预测能力瓶颈与突破方向:
-
• *台期的出现可能与遗传多样性增加导致的连锁不*衡(LD)减弱、模型未充分捕捉非线性效应有关。
-
• 未来可通过设计针对性训练集(如与测试集高相关的亚群)、开发新型非线性模型(如结合LD的深度学习方法)突破瓶颈,充分利用跨公司大数据优势。
-
- 方法论与应用价值:
-
• GBLUP在中等规模数据中仍具优势,而CNN的线性时间复杂度使其在超大规模数据中潜力更大,需进一步优化计算效率。
-
• 数据受托人(如学术机构)的中立角色对促进商业数据共享至关重要,为中小型育种企业提供低成本高效益的基因组预测解决方案。
结论
本研究证明跨公司数据整合可有效提升小麦自交系基因组预测能力,揭示训练集规模、数据质量和模型选择的关键作用。尽管存在*台期限制,通过优化数据整合策略和开发先进模型,有望进一步释放大数据在植物育种中的潜力,推动精准育种技术的跨机构协同创新。
本文来自博客园,作者:生物信息与育种,转载请注明原文链接:https://www.cnblogs.com/miyuanbiotech/p/18929954。若要及时了解动态信息,请关注同名微信公众号:生物信息与育种。

浙公网安备 33010602011771号