打破跨公司数据孤岛以训练全基因组预测模型：小麦可行性研究

德国莱布尼茨植物遗传与作物研究所(IPK)的Yusheng Zhao团队联合多家德国育种公司（W. von Borries-Eckendorf, Deutsche Saatveredelung AG, KWS SAAT SE & Co. KGaA, Nordsaat Saatzucht GmbH, KWS LOCHOW GmbH, SU BIOTEC GmbH）在国际知名期刊《Plant Biotechnology Journal》上发表了题为“Breaking down data silos across companies to train genome-wide predictions: A feasibility study in wheat”的论文。该研究揭示了整合来自四个商业小麦育种项目和历史公共-私营合作项目的大规模、异构表型与基因型数据是可行的，并且能够显著提高小麦产量、株高和抽穗期等关键农艺性状的基因组预测准确性。然而，研究也发现预测能力的提升随着训练集规模的增加（超过约4000个基因型后）会达到一个*台期，且该*台显著低于理论预测上限。

背景

基因组预测通过整合基因型和表型数据，能够高效估计候选品种的遗传价值，缩短育种周期，尤其适用于多基因控制的复杂农艺性状。尽管传统线性模型（如GBLUP）在植物育种中广泛应用，但深度学习方法（如卷积神经网络，CNN）因能捕捉非线性关系和大规模数据模式而备受关注。然而，单一机构的数据规模限制了深度学习的潜力，跨公司/机构的数据整合成为突破数据孤岛、提升预测能力的关键。本研究以小麦自交系为对象，整合4个商业育种项目及历史公私合作数据，探索跨数据孤岛整合对基因组预测的影响。

方法

1. 数据整合与预处理：

• 整合12年、168个环境的表型数据（粒重、株高、抽穗期），涉及9500个基因型，涵盖公共-私人合作历史数据及4家公司的商业育种数据。
• 基因型数据通过SNP芯片检测，针对不同*台的缺失数据采用BEAGLE进行插补，分宽松（≤80%缺失）和严格（≤30%缺失）标准筛选标记，最终获得覆盖小麦基因组的高密度SNP数据集。

1. 分析方法：

• 表型数据质量控制：通过混合线性模型计算最佳线性无偏估计（BLUEs），估计广义遗传力。
• 基因组预测模型：比较GBLUP与CNN的性能，评估训练集大小（10%-80%基因型）、环境/年份数量、数据来源组合对预测能力的影响。
• 种群结构分析：基于Rogers距离的主坐标分析（PCoA）检测遗传亚群，验证数据互操作性。

数据处理步骤的示意图概述

插补数据基础和准确性

实验级数的前三个主坐标（Srs.），基于 Rogers 线之间的距离

表型数据质量的衡量标准图

结果

1. 数据质量与互操作性：

• 基因型插补：块掩码和随机掩码策略均显示高插补精度（75%分位数≥0.93），整合后的数据无明显遗传亚群结构，确保跨数据集兼容性。
• 表型质量：遗传力高（抽穗期0.86-0.98，株高0.81-0.99，粒重0.74-0.93），验证数据可靠性。

1. 预测能力分析：

• 训练集规模效应：预测能力随训练集增大而提升，在4000个基因型时达峰值，进一步增大后增益递减并趋**台期（远低于遗传力*方根的理论上限）。
• 模型比较：小训练集（<4000基因型）时GBLUP优于CNN，大训练集时CNN性能接*GBLUP，两者差异随数据规模缩小。
• 环境与年份影响：增加训练集中的环境数（≥6个/基因型）和年份数（5年 vs. 2年）可提升预测能力，显示环境多样性的重要性。

跨实验序列预测能力

共享育种相关特征的跨系列训练集的产量预测能力

讨论

1. 数据整合可行性：

• 跨公司数据通过统一表型标准（如德国官方品种测试方法）和基因型插补技术实现互操作，证明公私合作模式下数据整合的可行性。
• 种群结构弱分化（PCoA显示遗传多样性互补而非隔离）是跨数据集预测有效的关键，适用于遗传背景相似的中欧小麦育种群体。

1. 预测能力瓶颈与突破方向：

• *台期的出现可能与遗传多样性增加导致的连锁不*衡（LD）减弱、模型未充分捕捉非线性效应有关。
• 未来可通过设计针对性训练集（如与测试集高相关的亚群）、开发新型非线性模型（如结合LD的深度学习方法）突破瓶颈，充分利用跨公司大数据优势。

1. 方法论与应用价值：

• GBLUP在中等规模数据中仍具优势，而CNN的线性时间复杂度使其在超大规模数据中潜力更大，需进一步优化计算效率。
• 数据受托人（如学术机构）的中立角色对促进商业数据共享至关重要，为中小型育种企业提供低成本高效益的基因组预测解决方案。

结论

本研究证明跨公司数据整合可有效提升小麦自交系基因组预测能力，揭示训练集规模、数据质量和模型选择的关键作用。尽管存在*台期限制，通过优化数据整合策略和开发先进模型，有望进一步释放大数据在植物育种中的潜力，推动精准育种技术的跨机构协同创新。

posted @ 2025-06-15 20:15 生物信息与育种阅读(75) 评论(0) 收藏举报

刷新页面返回顶部