Flye安装及使用
官网地址:flye
Flye works directly with base-called raw reads and does not require any prior error correction or trimming. Flye automatically detects chimeric reads or reads with low quality ends.
一般使用flye快速组装ont的序列,对于pacbio的reads有更好的处理软件,此处主要讨论处理ont reads。
flye支持四种ONT数据的输入:
--nano-raw 预期错误率为10-15%,能很好应对很大范围的数据集
--nano-hq 预期错误率为<5%,对于使用Guppy5+做basecalling的ONT数据,使用该模式
--nano-hq --read-error 处理Q20数据,结合这两个参数处理
--nano-corr 处理error-corrected ONT reads
flye主要是为处理未校正数据(uncorrected reads)而开发的。换言之,使用ont的raw data直接作为输入,使用--nano-raw参数进行快速的组装,是使用该软件的主要目的。
一、安装
conda install flye
二、用法
usage: flye (--pacbio-raw | --pacbio-corr | --pacbio-hifi | --nano-raw |
--nano-corr | --nano-hq ) file1 [file_2 ...]
--out-dir PATH
为了减少处理大规模基因组组装时的内存消耗,可以使用数据集中部分最长的reads进行最初的组装,使用--asm-coverage和--genome-size声明。
同时为了节省时间,可以声明--iteration 0来跳过polishing过程,默认进行一轮。
另外,对于二倍体基因组,flye可能导致马赛克组装,若需恢复phased单倍型,需要应用HapDup。因此,目前来看,单用flye组装ont是不理想的策略,可以结合多种ont的软件(包括flye)组装,结合hifi序列或者二代序列进行polish校正初步的组装集,最后使用Quickmerge来获取更一致的contig集合。
三、案例
使用官网的测试数据,4.6m的基因组,50x的覆盖度,总共约240m的数据,8线程用时15分钟跑完
wget https://zenodo.org/record/1172816/files/Loman_E.coli_MAP006-1_2D_50x.fasta
flye --nano-raw Loman_E.coli_MAP006-1_2D_50x.fasta --asm-coverage 50x --out-dir out_nano --threads 8
输出文件assembly.fasta -final assembly,包含contigs和可能的scaffoldsassembly_graph.{gfa|gv} -final repeat graph,说明序列是如何组装的assembly_info.txt -extra information about contigs
四、总结
一般使用flye的默认参数处理ont的raw data进行快速组装,获取assmebly集合,作为一个assembly的来源,然后使用hifi或者二代数据进行校正。最终结合其他软件获取的校正的assembly集合,使用Quickmerge进行合并,获得高度一致的组装集。
flye --nano-raw <ont.raw.fasta> --asm-coverage <coverage> --out-dir <out-ont> --threads <int>
浙公网安备 33010602011771号