JGG|22个六倍体小麦图泛基因组促进遗传变异挖掘

2025年4月4日,Journal of Genetics and Genomics在线发表中国农业科学院深圳农业基因组研究所程时锋研究员团队题为“Structural variation-based and gene-based pangenome construction reveals untapped diversity of hexaploid wheat”的研究论文。该研究整合22个六倍体小麦种质资源构建了图泛基因组探究了编码基因和结构变异在基因组上和不同种质间的分布发现一系列与小麦适应性相关以及重要功能基因中未被报道的结构变异促进了小麦遗传变异挖掘和关键变异定位

点击图片|阅读原文

图片

背景

  • 六倍体小麦的复杂性:六倍体小麦(Triticum aestivum; AABBDD)具有庞大的基因组(约16 Gb)和高度复杂性,这使得其基因组组装和研究极具挑战性。

  • 单参考基因组的局限性:传统的单参考基因组无法全面捕捉物种内的遗传多样性,限制了对种群遗传变异和重要农艺性状的研究。

  • 泛基因组的重要性:泛基因组(pangenome)是指一个物种中所有遗传多样性的集合,能够更全面地反映物种内的遗传变异,对于基因组研究和育种具有重要意义。

  • 研究现状:尽管近年来小麦基因组研究取得了显著进展,但与其它作物(如水稻、大豆)相比,小麦的泛基因组研究仍显不足。

方法

数据收集与组装

  • • 研究者收集了22个六倍体小麦的基因组组装序列,包括17个染色体水平和5个支架水平的组装,覆盖了全球主要小麦生产国(如中国、美国、法国、德国和澳大利亚)。

  • • 这些基因组的大小在13.9 Gb到15.0 Gb之间,转座子(TE)占比为77.4%到86.8%。

基因家族聚类分析

  • • 通过OrthoFinder软件对19个基因组的蛋白质编码基因进行聚类分析,构建了一个基于基因的泛基因组。

  • • 将基因家族分为核心基因(core)、软核心基因(softcore)、可选基因(dispensable)和私有基因(private)。

图基泛基因组构建

  • • 使用Fielder基因组作为参考,整合其他21个基因组,通过minigraph软件构建了一个图基泛基因组(graph-based pangenome)。

  • • 图基泛基因组的总长度为16.15 Gb,包含695,897个气泡(bubbles),这些气泡代表了基因组中的结构变异(SVs)。

结构变异(SVs)识别

  • • 使用SyRI软件识别SVs,并通过SURVIVOR软件合并SVs并识别热点区域。

  • • 研究了SVs在基因组中的分布,特别是在着丝粒(centromere)区域的聚集现象。

功能基因分析

  • • 通过已知的生长习性信息(春小麦和冬小麦),计算了图基泛基因组中基因段的相对频率差异(RFD),筛选出与生长习性相关的SVs。

  • • 对335个已知功能基因(如PPD-D1、VRT-A2)的子图结构进行了分析,揭示了复杂SVs的存在。

结果

基因家族分布

  • • 共鉴定出140,261个不同的基因家族,其中23.2%为所有样本共享的核心基因,59.7%为可选基因,3.07%为私有基因。

  • • 与其它物种相比,小麦的核心基因比例较低,反映了其高度的遗传多样性。

图基泛基因组特征

  • • 图基泛基因组的长度为16.15 Gb,比CS2.1参考基因组大1.14倍。

  • • 气泡(bubbles)的总数为695,897个,总长度为1,536 Mb,其中80.36%为双等位基因(biallelic),13.79%为3-5个等位基因,5.85%为5个以上等位基因。

结构变异(SVs)分布

  • • 识别了1,978,221个非冗余SVs,其中60.3%仅在一个样本中检测到。

  • • SVs在基因组中的分布显示出显著的区域差异,特别是在着丝粒区域,SV密度显著高于其他区域。

  • • 识别了497个SV热点区域,覆盖了约948 Mb的基因组。

功能基因的SV关联

  • • 在春小麦和冬小麦之间,识别了2,769个SVs,其绝对相对频率差异超过0.7。

  • • 例如,5B染色体上的一个218 bp的调控缺失变异在所有春小麦样本中存在,但在90%的冬小麦样本中缺失,可能与生长习性相关。

  • • 对功能基因(如PPD-D1、VRT-A2)的子图分析显示了复杂的多等位基因结构,揭示了图基泛基因组在识别复杂SVs方面的潜力。

  • Fig. 1

  • Fig. 2

Fig. 3

Fig. 4

Fig. 5

Fig. 6

讨论

图基泛基因组的改进空间

  • • 尽管研究者整合了22个小麦基因组,但仍有大量未对齐的序列(NOTAL SVs)未被纳入图基泛基因组。

  • • 引入更多基因组组装和长读测序技术(如PacBio和Nanopore)将有助于捕捉更全面的遗传变异,提高图基泛基因组的代表性。

着丝粒区域的结构变异

  • • 研究发现,着丝粒区域的SV密度显著高于其他区域,这可能对染色体的稳定性和功能维持具有重要作用。

  • • 与SNPs和Indels相比,较大的SVs(如倒位和易位)可能在着丝粒的动态变化中起关键作用。

泛基因组研究的意义

  • • 构建的图基泛基因组为小麦的遗传多样性研究和基因组育种提供了重要资源。

  • • 通过识别与生长习性相关的SVs,为小麦的表型变异和育种改良提供了新的研究方向。

未来研究方向

  • • 进一步改进基因注释质量,采用联合基因预测策略以减少注释偏差。

  • • 利用Hi-C数据确定未对齐序列的物理位置,完善图基泛基因组。

  • • 深入研究着丝粒区域的SVs及其对表型和育种的影响。

结论

这项研究通过构建基于基因和结构变异的六倍体小麦图基泛基因组,揭示了小麦中未被开发的遗传多样性,并为小麦的基因组研究和育种提供了重要的资源和工具。研究不仅加深了对小麦遗传多样性的理解,还为未来的小麦改良和精准育种提供了新的思路和方法。

数据访问:http://wheatpgdb.cn/

代码:https://github.com/Chenghong412/wheat_pangenome

请大家思考:为什么这篇文章22个小麦基因组图泛+数据库只能发表JGG?

小编拙见几点:

1. 公共数据挖掘,组装质量本身限制;

2. 去年张学勇老师已在Nature发表中国17个代表性小麦基因组;

  1. 国际小麦泛基因组计划(10+)在2020就已在Nature发表;

4. 深度、创新性及实验验证等缺乏。

不过对于公共数据挖掘已经非常不错了,值得借鉴!

图片

图片

posted @ 2025-04-24 21:09  生物信息与育种  阅读(233)  评论(0)    收藏  举报