JXB丨基于田间的高通量表型分析与基因组数据整合的表型数据驱动玉米生物学预测

图片

遗传增益依赖于选择强度、选择准确性、遗传方差和周期内随时间的相互作用,这些参数与表型数据的质量和数量都有直接关系。传统的表型方法提供的数据有限,这导致后续分析中不确定性增加,决策容易出错,准确性较低。基于高通量表型分析(FHTP)技术可以提供具有高时间维度(多个时间点)和高分辨率的表型数据,与传统的表型分型方法相比,更经济实惠并且不那么费力。

2023年6月,美国德克萨斯州农工大学土壤与作物科学系的Alper Adak及其合作者在Journal of Experimental Botany期刊上发表了题为“Phenomic data-driven biological prediction of maize through field-based high-throughput phenotyping integration with genomic data”的文章。该研究在灌溉和干旱胁迫试验中,使用RGB和多光谱无人机获取了基于时间序列的520个分离玉米重组自交系(RILs)的开花日期和株高等表型数据,然后结合基因组数据在几种情况下预测了开花时间,并通过GWAS整合了时序表型数据和基因组数据。

主要研究内容如下:

1.材料与方法

(1)表型数据的构建

该研究使用了RGB无人机和多光谱无人机采集表型数据,在整个生长周期内,两台无人机多次采集图像,采集的次数以及对应的生长天数如图1所示,并用QGIS提取了100余种植被指数,构建了基于时间序列的无人机表型数据。

图片

图1 基于实地的高通量表型分析(FHTP),使用2018年灌溉和干旱试验中收集的无人机(UAV)平台数据。在2018年的干旱和灌溉试验中,一架带有RGB相机的无人机在整个生长过程中飞行了16次。在2018年(灌溉和干旱)试验期间,一架配备多光谱相机的无人机进行了8次飞行。FHTP的时间轴显示飞行日期为种植后的天数。

(2)基因组数据的准备

研究使用了Infinium全基因组基因分型检测收集了520种基因型中每种基因组DNA;成功对515种基因型进行了基因分型,得到17444个全基因组单核苷酸多态性(SNP),并确定全基因组SNP的物理位置,然后对基因型数据做了质控,最终在GWAS和基因组预测中使用了11334个SNPs。

图片

图2 (A)包括前两个主成分(PCs)的双标图显示了520个重组近交系(RILs)的分离。(B)Scree图显示了每个PC的解释百分比变化。(C)距离矩阵显示了520个RILs的种群结构。(D)10条染色体上11334个筛选SNP的分布。

(3)环境中表型数据的统计分析

在RGB和多光谱平台的所有飞行,实施交互作用设计以检查从正序嵌合体中提取的每个植被指数的RILs的基因型变异。交互作用设计模型用于分析每个RIL在时序性表型上的性能,以预测时间上的BLUP。对于每个植被指数,使用限制性最大似然(REML)混合模型进行相互作用设计。

(4)预测模型及预测能力

基因组数据和两种不同类型的表型组数据(RGB和多光谱)被用作预测因子,用于在已知和未知环境中对已知和未知的基因型进行建模,基于7个不同的模型,对515个RILs的开花天数(DTA)、吐丝天数(DTS)和最终株高(PHT)进行了预测,并使用25次重复的5重交叉验证,进行模型评估。

(5)时间性状与花期的全基因组关联研究

使用11334个过滤的SNP进行GWAS分析,DTA、DTS和PHT的预测基因型效应以及预测的表型效应作为表型数据。图2显示了群体结构、PC评分和SNP在每条染色体上的分布。在所发现的SNP的100 kb内,以及在最小R2值为0.8的连锁不平衡(LD)块内鉴定候选基因。

2.主要结果如下:

(1)交互设计结果:时间重复性、方差分量、时间育种值和相关性

RGB平台的地面分辨率(每像素约1厘米)高于多光谱平台(每像素约7.5厘米),导致了RGB表型数据中的整体遗传力值更高。多光谱表型数据中植被指数的遗传力介于0.10~0.86,而RGB表型数据中植被指数的遗传力在0.84~0.93之间(图3)。与多光谱植被指数相比,RGB时序性植被指数在开花时间上具有更大的正相关性(图4)。表型数据相关性表明,相同生长阶段的植被指数通常以类似的方式与开花和株高相关(图4)。时序性植被指数在表型数据集中具有最小的多重共线性(图5)。

图片

图3 叠加条形图显示了2018年RGB和多光谱表型数据的交互作用设计中各组分的解释百分比变异。左侧y轴显示模型中每个组分的解释百分比变异,右侧y轴显示R2(圆点)和遗传力(三角形)。x轴表示植被指数。(A)2018年干旱(上图)和灌溉(下图)试验的多光谱数据结果。(B)2018年干旱(上图)和灌溉(下图)试验的RGB表型数据结果。

图片

图4. FHTP表型数据和物候性状(开花天数,DTA;吐丝天数,DTS;和最终植株高度,PHT)之间的相关性热图说明。每个时间点的植被指数(在y轴上)(在下方的x轴上为种植后的天数)显示了FHTP表型数据。DTA、DTS和PHT物候性状位于x轴上方。(A)与RGB的相关性和(B)与多光谱表型数据的相关性。使用Pearson相关性。

图片

图5 使用(A)2018年干旱试验(2018_D)和(B)灌溉试验(2018_I)中的多光谱表型数据,(C)2018年干旱试验(2018_D)和(D)灌溉试验(2018_I)中的RGB表型数据进行的时序性植被指数相关性。(E)GBS数据。

(2)不同环境间开花时间和株高的差异

基因型环境模型揭示了灌溉和干旱试验中开花时间和株高的差异。基因型(RIL)和环境之间的互作方差分量解释了DTA和DAF总变异的约8%,以及株高的19%(图6)。在不同的环境中的开花时间和株高的变化被用作依赖的预测变量,以评估在应用四种不同的预测方案中的基因组,表型和组合数据的预测能力。

(3)预测结果

在所有预测场景中,包含表型和基因组数据的模型(M4,M5,M6和M7)预测开花时间和株高在数值上更好,并且通常显著优于仅使用基因组数据的模型(M3)(图7)。这导致了在已知和未知环境中(CV1和CV00情景)与未知基因型相关的预测能力的最高增长。在情景CV1中,同时使用基因组和RGB表型数据(M4),对于开花时间和株高的预测能力分别进一步增加至0.75和0.56(图7)。利用基因组和多光谱物候学数据(M5),开花时间和株高分别增加到0.67(DTA和DTS)和0.52(PHT)(图7)。在情景CV00中,包含基因组、RGB和多光谱物候数据的模型(M6)对开花时间和株高的预测一致好于其他模型(M1-M5)。

图片

图6 基因型与环境模型的方差分量。(A)解释了开花时间(DTA和DTA)和最终株高(PHT)的每个分量的百分比变化。(B)各试验中属于其亚群的重组近交系的DTA、DBT和PHT的最佳线性无偏预测因子的箱形图。

图片

图7 七个模型(M1-M7)基于三个性状的四种预测情景的预测能力。CV 00和CV 0分别表示在未观察环境中未测试和测试基因型的预测情景。CV1和CV2分别表示观测环境中未测试和测试基因型的预测情景。预测能力(y轴)是取决于CV的RIL预测值和实际值之间的Pearson相关性。

(4)全基因组关联结果

结合所有的表型数据,跨环境,时序多光谱VIs包括704表型在灌溉和干旱试验和时间RGBVIs包括560表型在灌溉和干旱试验。这2528个时序性VIs表型组学测量结果导致2954个SNP的显著关联,其中1394个SNP是RGB平台特有的,442个SNP是多光谱平台特有的,并且1117个SNP在两种FHTP中通常被发现(图8C)。图9为GWSA结果。

图片

图8 (A)在2018年干旱和灌溉试验中,通过使用属于RGB(左)和多光谱(右)FHTP表型数据的时间植被指数发现的SNP数量(按飞行日期)。(B)基于RGB(上)和多光谱(下)FHTP以及干旱(左)和灌溉(右)环境的飞行时间上的显著时间SNP的密度图。(C)维恩图显示了在两项试验中发现的RGB和多光谱表型数据的独特和常见SNP。

图片

图9 (A)2018年干旱和灌溉试验中开花时间和最终株高的曼哈顿图。在讨论中进一步描述了突出显示的四个位点。(B)多光谱表型数据的曼哈顿图(88个植被指数×8次飞行×2个试验:1408个表型),仅显示统计学显著性SNP。(C)RGB表型组学数据的曼哈顿图(35个植被指数×16次飞行×2个试验:1120个表型),仅显示统计学显著性SNP。(D)4个基因座周围的LD区。

(5)通过FHTP揭示遗传和环境变化之间的相互作用

GWAS结果发现,播种后61天到82天之间获取表型(蓝色指数)在基因区域中的hsp 18f候选基因,为玉米热激蛋白(HSP)家族的成员。然而,有趣的是,在这之前或之后都未发现该位点(图10A)。该时间段包含的DTA和开花期,以及温度信息如图10A所示。GWAS中发现的等位基因变异在RIL中引起株高和开花时间的统计学显著差异如图10B所示。

图片

图10 (A)左y轴为2018年干旱和灌溉试验中使用GRMZM2G083810 (hsp18f)蓝色指数的时间效应大小。GRMZM2G083810 (hsp18f)在GWAS中具有显著性,使用黑色点表示属于航班的蓝色指数。右y轴表示x轴上每个DAP的最高、平均和最低(从上到下)虚线的温度(℃)。GRMZM2G083810 (hsp18f)的等位基因分离(腺嘌呤:A和鸟嘌呤:G)在最终株高(B)和开花前(C)方面分化为A和G的单倍型。单倍型组间比较采用Wilcoxon检验,p值位于箱形图上方。

(6)基于时间序列的基因组预测结果

在两个试验中,在播种后75-99天之间的NDRBI值在基因组学上预测大于27-71天(图11)。在早期生长期,干旱试验的瞬时NDRBI值在统计学上比灌溉试验的基因组预测能力更强(图11)。相反,在生长后期,灌溉试验的时间NDRBI值在统计学上比干旱试验的预测能力更强(图11)。研究发现时间标记效应是动态的,取决于属于每个时间点的NDRBI值(图第12段)。基因组标记的作用可从阴性变为阳性或从阳性变为阴性(图12)。

图片

图11 A)基于时间基因组预测模型的干旱和灌溉试验NDRBI植被指数时间基因组预测能力结果(式5)。B)由式5中各分量解释的变异百分比。基于每个飞行时间顶端的Wilcoxon比较,发现灌溉和干旱试验在多个时间点上的时间基因组预测能力存在显著差异。*、**、***在0.05、0.01、0.001显著;Ns不显著。平均预测能力放在每个条形图的底部。

图片

图12 种植后每天染色体上的加性标记效应(x轴)(y轴;DAP)在2018年灌溉和干旱试验中属于NDRBI植被指数。

3.总结:

高通量表型技术可以高精度,多措施和高时间维度筛选隔离群体。首先,属于整个生长过程中多个时间点的时间表型光谱数据预测了不同环境中复杂的物候特征,并有助于了解开花的稳定性。其次,时序表型数据发现可以更好地剖析植物和非生物胁迫之间的时间依赖性的关联。最后,时序性光谱特征发现了许多位点,包括已知的基因和一个热相关的候选基因。总的来说,将高通量表型数据整合到植物育种和基因组学中,将使生物学理解能够选择新的复杂性状,并剖析植物发育过程中的植物-环境相互作用。

来源:作物功能表型研究

图片

posted @ 2025-04-24 21:02  生物信息与育种  阅读(35)  评论(0)    收藏  举报