大咖访谈:李恒、张国捷、阮珏 T2T基因组时代:生命密码的终极解码之路(上)
大咖访谈:李恒、张国捷、阮珏
《GigaScience》期刊的T2T系列专题自去年推出以来,发表了一系列T2T基因组组装方法和基因组数据集。该专题成功开展,从最初的方法学论文,扩展到大量动植物T2T基因组,特别是具有农业价值的物种。这充分展示了基因组科学的快速进步,以及对完整基因组组装的追求。
T2T基因组数量的激增也引发了对"完整基因组"定义的审视与争议。为此,我们采访了T2T专题特邀编辑阮珏研究员、Fritz J Sedlazeck教授,浙江大学张国捷教授,以及T2T联盟的多位专家。我们就质量标准、基准和阈值向专家们进行访谈,获得了关于T2T这一说法的适用性、完整基因组最低要求以及基因组学未来发展方向的深刻见解。后续我们将通过微信公众号系列推文分享这些观点。
本篇推文汇集了基因组组装算法专家李恒博士(哈佛医学院)、演化生物学专家张国捷教授(浙江大学)和专题特邀编辑阮珏研究员(中国农业科学院 深圳农业基因组研究所)的方法学视角。
问
01
“T2T“这一说法的合理性
自三年前“T2T联盟“发布人类完整基因组序列以来,"T2T"已成为完整参考基因组的代名词,不仅适用于人类,也广泛应用于动植物等所有物种。T2T快速发展的原因是什么?"T2T"这一说法是否合适?
张国捷:长读长测序技术和算法突破是主因,标准化流程降低了技术门槛。但更要强调的是T2T基因组带来的生物学洞见——着丝粒/表观遗传结构、MHC复合区、人类Y染色体等复杂区域的研究都因此受益。
李恒:高精度长读长测序的发展是决定因素。若能真正实现从端粒到端粒的精确组装,“T2T”这一说法还是恰当的,但现实中许多基因组没有经过严格的校验而并未达到这一标准。
阮珏:多数研究者已将T2T等同于完整基因组组装,这个说法可以接受。
张国捷特别指出****:尽管T2T现在已成为一种趋势,我完全理解T2T基因组对每个物种的价值,但我想指出,这不应被视为开展基因组研究的唯一标准或先决条件。科学项目应该优先考虑问题驱动的设计,而不是只是追求组装的完美主义。许多关键的生物学问题可以通过基因组草图有效地解决,这使得T2T在许多应用中不是必要的。实际上,对T2T的追求给一些研究施加了令人望而却步的限制:“DNA要达到Mb长度“这一要求排除了小型生物和馆藏标本,而高昂的测序/计算成本可能会导致无法进行更广泛的采样或多组学整合。强制实施T2T可能会推迟濒危物种的保护基因组学,并在资源有限的情况下使研究人员处于不利地位,无意中扼杀方法学创新。
问
02
用“T2T“表示基因组的完整性是否准确?
张国捷:尽管"T2T"强调染色体末端,但更准确的"完整基因组组装"(CGA)可能更合适。折中方案如"T2T-CGA"或许能兼顾准确性与辨识度。
阮珏:当前学界广泛认可“T2T“代表”完整基因组组装“。
问
03
质量评估标准
十多年前,Assemblathon和Assemblathon 2竞赛突显了基因组组装之间的高度可变性,并帮助实现了更标准化的评估和比较参考基因组质量的方法。您认为我们是否再次处于基因组学的类似拐点?您认为真正的T2T基因组所需的最低要求是什么?
张国捷:组装和评估一个真正完整的基因组无疑是一项挑战。现有所有T2T基因组(包括人类CHM13)仍存在需优化的区域。T2T-CGA作为一个标准指高质量且完整覆盖的基因组组装。有些团队在无法达到T2T-CGA的情况下,用“接近或者半T2T基因组“来妥协,这使得T2T-CGA的标准变得没有意义。我们必须认识到,单一标准不应普遍适用于所有基因组项目。质量指标应该根据基因组的预期用途量身定制,建立不同的质量标准。同样,T2T-CGA质量反映的是技术能力,而不是科学价值。建议不要根据这一指标来简单的评估研究工作的质量。
李恒:严格来说,CHM13也未达到T2T标准(rDNA未组装),我个人倾向于采用"Near T2T"这一说法。在我看来,"Near T2T"至少应将部分染色体完整组装,并且平均起来每条染色体上的gap加上结构性组装错误应限于个位数。我对T2T的标准是将除rDNA外序列全部组装,并且平均起来每条染色体上结构性错误不超过一个。
问
04
填补gap的挑战
填补gap有多难?您认为处理该问题的最佳方法是什么?
李恒:Gap修补取决于具体情况。如果组装图(assembly graph)是连续的,我们可以手动检查和跟踪图中的路径。我们可以对gap周围的contigs进行比对,看看它们是否有重叠,或者比对超长read,看看其中一些是否可以跨越这个gap并且有SUNK-mer支持。有时比较不同软件的组装也会有用。但这些做法均可能导致组装错误,需要仔细验证才行。
阮珏:填补gap是T2T基因组组装中最大的问题。大多数工具依赖于测序技术的进步,但在对串联重复序列进行序列比对和变异位点识别方面进展甚微。因此,目前组装出来的T2T基因组都是比较幸运的。
问
05
质量评估指标推荐
您能推荐一些具体的指标用来评估T2T基因组质量吗?以及是否有特定的基准测试方法?
李恒:如果数据足够,主流组装软件可以完整组装许多物种的多条染色体,而且它们自动化程度高,入手门槛低。但因为没有软件能精确地自动评价一个组装是否达到T2T,目前验证比组装更需要经验和时间。如果旁系物种有很好的注释,BUSCO/compleasm完整性是起码要求。如果完整性比较低,需给出合理解释(比如缺少旁系物种或最近有全基因组范围的结构变化)。建议补充Nucfreq或GCI的衡量错误组装结果图,可将这些图作为补充材料上传。
张国捷:真正的T2T-CGA基因组应该满足以下标准:1)端粒到端粒的完整染色体覆盖;2)无gap(contig长度=染色体长度);3)已验证倍性的分型单倍型(尤其是性染色体);4)碱基错误率<0.01%(Q50);5)组装完整的着丝粒/端粒重复序列。
阮珏:碱基错误率<= e-6;每条染色体的潜在结构错误<10处;结构错误可以多于碱基错误。
问
06
T2T时代的展望
现在我们有了人类T2T参考基因组(以及越来越多的非人类参考基因组);您认为该领域的下一步发展方向是什么?
张国捷:T2T-CGA在人类中的应用可以真正促进个人基因组医学的发展。每个人将来都应该有自己的T2T-CGA。如果为每个物种生产T2T-CGA的目标过于遥远和昂贵,那么为每个分类群(目/科/属)确定一个具有代表性的物种建立T2T-CGA参考基因组,将是生物多样性基因组学研究的一个非常有价值的工作。
阮珏:未来结合T2T和泛基因组,大多数生物信息学工具都需要适配和重构,未来的基因组分析场景将会是全新的。
敬请关注本系列后续推文;点击“阅读原文“可跳转至T2T专题页面。
参考文献:
Nurk S et al. The complete sequence of a human genome. Science. 2022 Apr;376(6588):44-53. doi: 10.1126/science.abj6987.
Bradnam KR, et al. Assemblathon 2: evaluating de novo methods of genome assembly in three vertebrate species. Gigascience. 2013 Jul 22;2(1):10. doi: 10.1186/2047-217X-2-10.
Huang N, Li H. compleasm: a faster and more accurate reimplementation of BUSCO. Bioinformatics. 2023 Oct 3;39(10):btad595. doi: 10.1093/bioinformatics/btad595.
Chen Q, Yang C, Zhang G, Wu D. GCI: a continuity inspector for complete genome assembly. Bioinformatics. 2024 Nov 1;40(11):btae633. doi: 10.1093/bioinformatics/btae633.
本文来自博客园,作者:生物信息与育种,转载请注明原文链接:https://www.cnblogs.com/miyuanbiotech/p/18930020。若要及时了解动态信息,请关注同名微信公众号:生物信息与育种。

                
            
        
浙公网安备 33010602011771号