J. Adv. Res综述 | 为大型复杂植物基因组开发泛基因组及其表示格式
介绍近期ICRISAT发表的一篇关于复杂植物泛基因组研究的综述:Developing pangenomes for large and complex plant genomes and their representation formats。这篇文章主要探讨了植物泛基因组(pangenome)的构建方法、表示格式以及在植物基因组学中的应用。
背景知识
-
泛基因组(pangenome)是指一个物种中所有个体的非冗余DNA序列集合,包括核心基因组(core genome)和附属基因组(accessory genome)。核心基因组是所有个体共有的基因,而附属基因组则包含特定个体或亚群特有的基因。
-
泛基因组的概念最早由Tettelin等人在2005年提出,近年来随着测序技术的发展,尤其是高通量测序(NGS)技术的进步,泛基因组研究在植物领域得到了广泛应用。
-
泛基因组研究有助于揭示物种的进化、适应性以及性状变异,并为作物改良提供了新的工具和方法。
研究方法
泛基因组构建方法:
-
泛基因组的构建可以通过监督式(supervised)或非监督式(unsupervised)方法进行。监督式方法依赖于参考基因组,将个体的测序读段映射到参考基因组上,然后对未映射的读段进行迭代组装。非监督式方法则完全不依赖参考基因组,采用从头组装(de novo assembly)的方式。
-
多种生物信息学工具被开发用于泛基因组的构建,例如PANSEQ、PGAP、PANTOOLS等,这些工具能够识别新的基因组区域、单核苷酸多态性(SNPs)、核心基因组序列和附属基因组序列。
-
图形化方法也被广泛应用于泛基因组构建,例如使用De Bruijn图的组装器(如Cortex、SplitMEM等)可以将不同个体的基因组序列以图的形式表示,从而捕捉到个体间的遗传变异。
泛基因组的表示格式:
-
线性格式(Linear format):传统的泛基因组表示方法是将基因组序列以线性方式存储在FASTA格式文件中,变异信息则以VCF格式存储。这种格式的优点是简单直观,但难以表示复杂的结构变异和个体间的差异。
-
图形格式(Graph format):图形格式的泛基因组通过图结构来表示基因组序列,能够更有效地捕捉基因组的复杂性和多样性。例如,GFA(Graphical Fragment Assembly format)和GAM(Graph Alignment Format)是常用的图形格式。
-
实用单倍型图(Practical Haplotype Graph, PHG):PHG是一种基于单倍型的图结构,通过将参考序列范围内的遗传变异表示为节点和边,能够更紧凑地存储和表示基因组多样性。
实验与关键结论
泛基因组在植物中的应用:
-
泛基因组研究揭示了多种作物的核心基因组和附属基因组结构。例如,小麦的核心基因组占总基因的64%,而水稻的核心基因组占89%。随着更多基因组的加入,附属基因组的占比逐渐增加,表明植物物种的泛基因组通常是开放的(open pangenome)。
-
泛基因组分析还揭示了基因家族的扩张和收缩,以及与环境适应性相关的基因变异。例如,在大豆、玉米和小麦等作物中,研究人员发现了与抗逆性和产量相关的基因变异。
泛基因组对作物改良的贡献:
-
泛基因组提供了更全面的遗传变异信息,有助于识别与重要农艺性状相关的基因变异,从而加速作物改良进程。
-
通过泛基因组分析,研究人员可以开发分子标记,用于标记辅助选择(MAS)和基因组预测模型,提高育种效率。
结论与展望
-
泛基因组的构建和表示格式在植物基因组学中具有重要意义,尤其是在解析复杂基因组结构和遗传多样性方面。
-
随着测序技术的不断进步和更多植物泛基因组资源的可用性,泛基因组学有望在作物改良中发挥更大的作用,为全球粮食安全提供支持。
-
未来的研究方向可能包括开发更高效的图形化工具、整合多组学数据(如转录组、表观基因组等)以及利用机器学习和人工智能技术来提高泛基因组分析的准确性和效率。
建全球多样性样本的泛基因组。
泛基因组组装方法及其格式。
植物泛基因组以线性格式、图形格式和泛基因组哈希图(PHG)格式发布。
基于图的可视化包括:
A)点格式查看器(dot format viewer);
B)Bandage 图形格式。
PHG数据库的构建包括:
C)识别参考范围/区间序列(保守区域);
D)识别单倍型并为每个群体(种群)调用共识序列,并将其存储在数据库中;
E)将种群中查询个体的序列读取映射到数据库中,并沿着路径查找单倍型。
用于线性格式和图形格式组装的植物泛基因组可视化工具。
图4. 泛基因组表示中的线性格式和图形格式的比较:
A)线性格式和图形格式的序列比较。线性格式(FASTA)在序列位置上,对于单核苷酸多态性(SNP)变异,必须选择一个随机的碱基;对于不确定的重复序列和单倍型模式,只能选择一条路径,而图形格式(FASTG)则能够编码并存储基因组的复杂性。
B)泛基因组可以用线性格式、图形格式以及泛基因组哈希图(PHG)表示,且这几种格式可以通过一些额外的步骤相互转换。线性格式可以通过识别单倍型/变异转换为图形格式,并将基因型导出为线性格式。同样地,基于线性格式的参考范围上识别的单倍型列表可以导入到图形格式的PHG数据库中,并可以将推断的共识单倍型路径导回线性格式。
图5. 泛基因组可视化:
A)Gbrowse中线性格式的泛基因组(甘蓝型油菜泛基因组);
B)小麦泛基因组的Panache截图。
图6. 泛基因组格式中遗传变异的比较:
A)在第2个和第3个变异之间忽略了变异;
B)而在图形格式中,相同的缺失变异被成功捕获;
C)在下游分析中,由于单倍型缺失,导致单倍型模式出现错误;
D)凭借更准确的遗传信息,育种者可以利用这些信息来识别参与标记辅助选择(MAS)/基因组选择(GS)的变异,并通过基因组编辑对基因组进行改良。
本文来自博客园,作者:生物信息与育种,转载请注明原文链接:https://www.cnblogs.com/miyuanbiotech/p/18843645。若要及时了解动态信息,请关注同名微信公众号:生物信息与育种。