NC | SVLearn机器学习模型显著提高跨物种结构变异的基因分型准确度
结构变异(SVs)是基因组中多样化的遗传变异形式,并且与多种人类疾病的发生密切相关。然而,从短读长测序数据中准确鉴定结构变异,尤其是那些发生在重复序列区域的变异,仍然是一个巨大的挑战。
2025年3月11日西北农林科技大学姜雨等团队在Nature Communications(IF=14.7)发表了一篇题为“SVLearn: a dual-reference machine learning approach enables accurate cross-species genotyping of structural variants”的研究论文。
他们开发了一种名为SVLearn的机器学习模型,通过创新的双重参考基因组策略,显著提高了结构变异(SVs)在跨物种中的基因分型准确度。该研究不仅为人类疾病的基因组学研究提供了新的工具,也为动植物遗传育种和进化生物学研究开辟了新的可能性。
与传统的单参考基因组方法不同,SVLearn通过构建一个替代基因组(ALT),将已知的双等位基因SV位点的参考等位基因替换为替代等位基因序列。这种设计使得短读序列能够更有效地比对到SV区域,从而显著提高了基因分型的准确性。
研究团队通过大量实验验证了SVLearn的性能,结果显示,该模型在人类、牛和羊的SV基因分型中均表现出色,尤其是在重复序列区域和低测序覆盖度下,其优势更为明显。
在人类基因组数据中,SVLearn利用38,613个已知的SV位点进行训练和测试,与当前最先进的四种工具相比,其在重复序列区域的插入和缺失变异的基因分型精度分别提高了15.61%和13.75%。
此外,SVLearn在牛和羊的基因组数据中也展现了强大的泛化能力,加权基因型一致性得分高达90%,这表明该模型不仅适用于人类基因组,还能在其他物种中实现高精度的SV基因分型。
“SVLearn的开发为跨物种结构变异的研究提供了一个强大的新工具。它不仅能够显著提高基因分型的准确性,还能在低覆盖度下保持高性能,这对于大规模基因组学研究和资源受限的场景具有重要意义。”
研究团队还指出,SVLearn的高效性和准确性使其能够加速基因组规模的SVs与疾病关联的研究,为人类健康和动植物遗传改良提供新的思路和方法。
SVLearn可在GitHub(https://github.com/yangqimeng99/svlearn)和Zenodo(https://doi.org/10.5281/zenodo.14897730)上获取。
用于本研究分析的代码也可以在GitHub(https://github.com/yangqimeng99/svlearn-paper-code)和Zenodo(https://doi.org/10.5281/zenodo.14891769)上找到。
来源:生信情报局
本文来自博客园,作者:生物信息与育种,转载请注明原文链接:https://www.cnblogs.com/miyuanbiotech/p/18845351。若要及时了解动态信息,请关注同名微信公众号:生物信息与育种。