提升基因变异检测准确性的GPU加速技术与pangenome方法
使用某中心Parabricks提升变异检测准确性
专为数据科学家和生物信息学家设计的某中心Parabricks是一个可扩展的基因组学二级分析软件套件。它提供GPU加速版本的开源工具,以提高分析速度和准确性,使研究人员能够更快地获得生物学见解。
最新版本Parabricks v4.6对多项功能进行了改进,最显著的是支持某机构的DeepVariant和DeepSomatic 1.9。这包括了DeepVariant的pangenome-aware模式,该模式提高了跨遗传变异和不同人群分析的准确性。
新功能:
- DeepVariant和DeepSomatic 1.9,包括pangenome-aware DeepVariant。
- DeepSomatic长读长和全外显子组测序支持。
- STAR的quantMode,包括GeneCounts。
改进功能:
- STAR加速:在两个某中心RTX PRO 6000 GPU上,相比仅使用CPU的解决方案,速度提升近8倍。
- 为Mutectcaller增加了额外参数,包括线粒体模式。
使用DeepVariant和DeepSomatic 1.9改进变异检测
变异检测是基因组分析的关键步骤。它能识别样本基因组(例如个体或群体)与参考基因组之间的差异。理解这些遗传差异有助于科学家更好地了解疾病和潜在的治疗方法。
目前有各种各样的工具用于变异检测,包括来自Broad研究所的基因组分析工具包(GATK)中的HaplotypeCaller和Mutect2。除了GATK的行业标准工具外,基于深度学习的变异检测工具也已得到广泛应用。
由某机构开发的DeepVariant和DeepSomatic使用深度学习来支持变异识别。对于种系数据,DeepVariant确定遗传性变异。而DeepSomatic则显示了体细胞变异如何影响非遗传性突变,包括在肿瘤细胞中发现的突变。
提高变异检测的准确性至关重要,尤其是在考虑遗传多样性时。根据最近的一篇论文,与基于线性参考的DeepVariant相比,pangenome-aware DeepVariant在所有设置下将错误减少了高达25.5%。
结合Giraffe和DeepVariant v1.9进一步提升准确性
传统的线性参考,包括基因组参考联盟人类构建38(GRCh38),仅基于少数个体的DNA构建,为基因组研究提供了一个通用坐标系统。然而,这些参考并未捕捉到更广泛人类群体中存在的全部遗传变异谱。因此,重要的亚群体多样性往往未被充分代表。这可能会给后续分析带来偏差,例如读段比对和变异检测,可能会遗漏或错误解释与祖先或疾病相关的重要遗传差异。
与线性参考不同,pangenome通过整合来自不同个体的多个高质量基因组来构建,捕捉了人类群体中更广泛的遗传变异范围。这种综合方法减少了参考偏差,改善了跨人群的变异检测,并支持更准确和公平的基因组分析。由加州大学圣克鲁兹分校研究人员开发的软件工具Giraffe,能够实现对pangenome图的高效读段比对。
Giraffe将基因组序列比对到参考pangenome,而不是传统的线性参考,从而提高了跨不同人群的变异检测准确性。将Giraffe与DeepVariant的pangenome-aware模式(现已在Parabricks v4.6中提供)相结合,不仅提高了已识别变异的准确性,还提供了Parabricks GPU加速的速度。
准确性: 根据pangenome-aware DeepVariant的结果,开源pangenome-aware DeepVariant比BWA更准确,获得了以下F1分数:
- Pangenome-aware DeepVariant: SNP: 0.9981 | Indel: 0.9971
- BWA: SNP: 0.9973 | Indel: 0.9968
速度: 利用Parabricks中的GPU加速,Giraffe和DeepVariant的运行时间实现了超过14倍的加速,对比在四个某中心RTX PRO 6000 GPU上使用仅CPU的Giraffe和pangenome-aware模式的DeepVariant。
开始使用Giraffe和DeepVariant
Parabricks的现有用户可以在提供以下文件后运行DeepVariant:
- 来自Giraffe索引文件的适当FASTA参考文件。
- 运行Giraffe后输出的BAM文件和图形GPZ文件。
有关获取这些文件的说明,请参阅专注于在变异检测工作流中使用Giraffe的Parabricks Giraffe文档。以下步骤也将指导您完成整个过程。
步骤 1
运行基线VG以从图形生成FASTA文件。
请注意,使用基线VG的步骤1只需运行一次。一旦您从图形获得了FASTA文件,就不需要再次运行步骤1。相反,运行步骤2和步骤3来处理更多的FASTQ样本。
# 提取与路径列表对应的序列到FASTA文件
docker run --rm --volume $(pwd):/workdir \
--workdir /workdir \
quay.io/vgteam/vg:v1.59.0 \
vg paths -x hprc-v1.1-mc-grch38.gbz -p hprc-v1.1-mc-grch38.paths.sub -F > hprc-v1.1-mc-grch38.fa
# 索引fasta文件
samtools faidx hprc-v1.1-mc-grch38.fa
步骤 2
接下来,正常运行Giraffe。
# 此命令假定所有输入都在当前工作目录中,所有输出也放置在同一位置。
docker run --rm --gpus all --volume $(pwd):/workdir --volume $(pwd):/outputdir \
--workdir /workdir \
nvcr.io/nvidia/clara/clara-parabricks:4.6.0-1 \
pbrun giraffe --read-group "sample_rg1" \
--sample "sample-name" --read-group-library "library" \
--read-group-platform "platform" --read-group-pu "pu" \
--dist-name /workdir/hprc-v1.1-mc-grch38.dist \
--minimizer-name /workdir/hprc-v1.1-mc-grch38.min \
--gbz-name /workdir/hprc-v1.1-mc-grch38.gbz \
--ref-paths /workdir/hprc-v1.1-mc-grch38.paths.sub \
--in-fq /workdir/${INPUT_FASTQ_1} /workdir/${INPUT_FASTQ_2} \
--out-bam /outputdir/${OUTPUT_BAM}
步骤 3
最后,这三个文件可以用作DeepVariant的输入。使用来自步骤2的BAM、来自步骤1的FASTA以及图形GBZ文件运行pangenome_aware_deepvariant。
# Pangenome_aware_deepvariant
# 此命令假定所有输入都在当前工作目录中,所有输出也放置在同一位置。
docker run --rm --gpus all --volume $(pwd):/workdir --volume $(pwd):/outputdir \
--workdir /workdir \
nvcr.io/nvidia/clara/clara-parabricks:4.6.0-1 \
pbrun pangenome_aware_deepvariant \
--ref /workdir/hprc-v1.1-mc-grch38.fa \
--pangenome /workdir/hprc-v1.1-mc-grch38.gbz \
--in-bam /workdir/${INPUT_BAM} \
--out-variants /outputdir/${OUTPUT_VCF}
STAR改进:包括quantMode GeneCounts
除了DeepVariant的pangenome-aware模式外,Parabricks的最新版本还包括对STAR的改进。STAR是一个用于加速RNA测序比对的工具。它因其在跨测序平台的RNA-seq数据上的速度和准确性以及对大型数据集的可扩展性而特别有用。STAR已可在Parabricks中使用,并且得益于GPU加速,其速度得到进一步提升——在两个某中心RTX PRO 6000 GPU上,相比仅使用CPU的解决方案,实现了近8倍的加速。
在Parabricks的最新版本中,quantMode GeneCounts是STAR的一个新可用选项,对于基因表达、质量控制、标准化和数据整合等多种应用非常有价值。在比对的映射步骤中,quantMode GeneCounts能够快速生成基因水平的读段计数。
开始使用STAR
QuantMode GeneCounts可以作为参数添加到STAR中运行。示例命令如下。
docker run --rm --gpus all --volume $(pwd):/workdir --volume $(pwd):/outputdir \
--workdir /workdir \
nvcr.io/nvidia/clara/clara-parabricks:4.6.0-1 \
pbrun rna_fq2bam \
--genome-lib-dir ${GENOME_DIR} \
--in-fq ${FASTQ1} ${FASTQ2} \
--output-dir ${OUT_DIR} \
--ref ${GENOME} \
--out-bam ${OUT_BAM} \
--num-gpus ${GPU_NUM} \
--quantMode GeneCounts
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)
公众号二维码

公众号二维码


浙公网安备 33010602011771号