Flye安装及使用

官网地址:flye

Flye works directly with base-called raw reads and does not require any prior error correction or trimming. Flye automatically detects chimeric reads or reads with low quality ends.

一般使用flye快速组装ont的序列,对于pacbio的reads有更好的处理软件,此处主要讨论处理ont reads。

flye支持四种ONT数据的输入:

--nano-raw                     预期错误率为10-15%,能很好应对很大范围的数据集
--nano-hq                     预期错误率为<5%,对于使用Guppy5+做basecalling的ONT数据,使用该模式
--nano-hq --read-error         处理Q20数据,结合这两个参数处理
--nano-corr                    处理error-corrected ONT reads

flye主要是为处理未校正数据(uncorrected reads)而开发的。换言之,使用ont的raw data直接作为输入,使用--nano-raw参数进行快速的组装,是使用该软件的主要目的。

一、安装

conda install flye

二、用法

usage: flye (--pacbio-raw | --pacbio-corr | --pacbio-hifi | --nano-raw |
         --nano-corr | --nano-hq ) file1 [file_2 ...]
         --out-dir PATH

为了减少处理大规模基因组组装时的内存消耗,可以使用数据集中部分最长的reads进行最初的组装,使用--asm-coverage和--genome-size声明。

同时为了节省时间,可以声明--iteration 0来跳过polishing过程,默认进行一轮。

另外,对于二倍体基因组,flye可能导致马赛克组装,若需恢复phased单倍型,需要应用HapDup。因此,目前来看,单用flye组装ont是不理想的策略,可以结合多种ont的软件(包括flye)组装,结合hifi序列或者二代序列进行polish校正初步的组装集,最后使用Quickmerge来获取更一致的contig集合。

三、案例

使用官网的测试数据,4.6m的基因组,50x的覆盖度,总共约240m的数据,8线程用时15分钟跑完

wget https://zenodo.org/record/1172816/files/Loman_E.coli_MAP006-1_2D_50x.fasta
flye --nano-raw Loman_E.coli_MAP006-1_2D_50x.fasta --asm-coverage 50x --out-dir out_nano --threads 8

输出文件
assembly.fasta  -final assembly,包含contigs和可能的scaffolds
assembly_graph.{gfa|gv}  -final repeat graph,说明序列是如何组装的
assembly_info.txt  -extra information about contigs

四、总结

一般使用flye的默认参数处理ont的raw data进行快速组装,获取assmebly集合,作为一个assembly的来源,然后使用hifi或者二代数据进行校正。最终结合其他软件获取的校正的assembly集合,使用Quickmerge进行合并,获得高度一致的组装集。

flye --nano-raw <ont.raw.fasta> --asm-coverage <coverage> --out-dir <out-ont> --threads <int>
posted @ 2022-09-26 21:06  pd_liu  阅读(1222)  评论(0)    收藏  举报