PBJ | 基于基因网络和多组学数据的植物基因组预测模型NetGP

基因组选择（Genomic Selection, GS）是一种新兴的植物育种策略，通过高密度分子标记预测目标性状的育种值，从而加速育种进程并降低成本。然而，传统方法在预测复杂性状时存在局限性，因为它们无法充分反映基因型与表型之间复杂的非线性关系。近年来，深度学习（Deep Learning, DL）技术在多个领域取得了突破性进展，为基因组选择提供了新的可能性。

近日，广东省农业科学院水稻所生信与大数据育种刘琦团队联合桂林电子科技大学团队在PBJ上发表“Genomic prediction with NetGP based on gene network and multi-omics data in plants”论文。提出了一种创新的基于基因网络和多组学数据的植物基因组预测方法。研究提出了一种新的特征提取方法（PCS），能够有效筛选与目标性状相关且独立的SNP特征，提升预测精度。同时，结合基因网络与深度学习技术，设计了新的图卷积层和基因网络层，能够处理基因组和转录组数据，挖掘基因网络中的复杂模式。研究还验证了该方法在花生和玉米等其他物种中的应用，取得了显著的预测精度提升。

方法

特征选择方法（Pearson-Collinearity Selection, PCS）

通过滑动窗口方法从SNP数据中提取基因组特征，降低数据维度。
使用皮尔逊相关系数（PCC）和P值筛选与目标性状高度相关的特征。
去除高度相关的特征以减少冗余，保留独立且相关的特征。
提取与所选SNP对应的转录组特征，并与基于连锁不平衡（LD）方法选择的特征进行比较。

特征处理对相关性、多重共线性和预测性能的影响

NetGP模型结构

基因网络预测模型（NetGP）：结合基因网络和多组学数据，包含基因组预测模型（NetGP-SNP）、转录组预测模型（NetGP-Trans）和多组学预测模型（NetGP-Trans + SNP）。
扩展图卷积层（Extended GCN）：
基于基因网络构建邻接矩阵，通过图拉普拉斯矩阵归一化。
通过基因网络的直接和间接关联扩展邻接矩阵，增强基因间交互的学习能力。
使用ReLU激活函数和批量归一化（Batch Normalization, BN）以提高训练效率和稳定性。
基因网络层（GN）：
初始化SNP与基因的关系权重，将SNP与对应基因的连接权重设为1，其他基因型（如启动子、增强子等）的连接权重设为0。
避免稀疏矩阵，使模型能够自主学习复杂模式。
多组学数据融合：
通过扁平化操作将SNP和基因表达数据的特征进行融合。
引入自学习融合参数（γ和β），自适应调整各特征的权重。

模型框架图

模型训练与验证

使用10折交叉验证方法对模型进行训练和验证。
采用PCC（皮尔逊相关系数）作为评估指标，衡量预测值与实际值之间的线性相关性。
使用SmoothL1损失函数和Adamax优化器进行模型训练。

结果

特征选择方法的性能

PCS方法在减少特征冗余和提高模型预测性能方面优于PCA和LD方法。
在多个模型（如DeepGS、DNNGP、GenNet等）中，PCS方法的平均预测准确率最高。

不同特征选择方法对各模型影响比较

NetGP模型的性能

在基因组预测和转录组预测中，NetGP模型的预测准确率均优于其他经典模型（如DeepGS、DNNGP、LightGBM、rrBLUP等）。
多组学预测模型（NetGP-Trans + SNP）在大多数性状上优于单一组学模型（NetGP-SNP和NetGP-Trans），表明多组学数据的整合能够提高预测性能。
在不同物种（如花生、番茄、拟南芥和玉米）的表型预测中，NetGP模型展现出良好的泛化能力，预测准确率优于其他模型。