Flye安装及使用

官网地址：flye

Flye works directly with base-called raw reads and does not require any prior error correction or trimming. Flye automatically detects chimeric reads or reads with low quality ends.

一般使用flye快速组装ont的序列，对于pacbio的reads有更好的处理软件，此处主要讨论处理ont reads。

flye支持四种ONT数据的输入：

--nano-raw                     预期错误率为10-15%，能很好应对很大范围的数据集
--nano-hq                     预期错误率为<5%，对于使用Guppy5+做basecalling的ONT数据，使用该模式
--nano-hq --read-error         处理Q20数据，结合这两个参数处理
--nano-corr                    处理error-corrected ONT reads

flye主要是为处理未校正数据（uncorrected reads）而开发的。换言之，使用ont的raw data直接作为输入，使用--nano-raw参数进行快速的组装，是使用该软件的主要目的。

一、安装

conda install flye

二、用法

usage: flye (--pacbio-raw | --pacbio-corr | --pacbio-hifi | --nano-raw |
         --nano-corr | --nano-hq ) file1 [file_2 ...]
         --out-dir PATH

为了减少处理大规模基因组组装时的内存消耗，可以使用数据集中部分最长的reads进行最初的组装，使用--asm-coverage和--genome-size声明。

同时为了节省时间，可以声明--iteration 0来跳过polishing过程，默认进行一轮。

另外，对于二倍体基因组，flye可能导致马赛克组装，若需恢复phased单倍型，需要应用HapDup。因此，目前来看，单用flye组装ont是不理想的策略，可以结合多种ont的软件（包括flye）组装，结合hifi序列或者二代序列进行polish校正初步的组装集，最后使用Quickmerge来获取更一致的contig集合。

三、案例

使用官网的测试数据，4.6m的基因组，50x的覆盖度，总共约240m的数据，8线程用时15分钟跑完

wget https://zenodo.org/record/1172816/files/Loman_E.coli_MAP006-1_2D_50x.fasta
flye --nano-raw Loman_E.coli_MAP006-1_2D_50x.fasta --asm-coverage 50x --out-dir out_nano --threads 8

输出文件
assembly.fasta -final assembly，包含contigs和可能的scaffolds
assembly_graph.{gfa|gv} -final repeat graph，说明序列是如何组装的
assembly_info.txt -extra information about contigs

四、总结

一般使用flye的默认参数处理ont的raw data进行快速组装，获取assmebly集合，作为一个assembly的来源，然后使用hifi或者二代数据进行校正。最终结合其他软件获取的校正的assembly集合，使用Quickmerge进行合并，获得高度一致的组装集。

flye --nano-raw <ont.raw.fasta> --asm-coverage <coverage> --out-dir <out-ont> --threads <int>

posted @ 2022-09-26 21:06 pd_liu 阅读(1235) 评论(0) 收藏举报

刷新页面返回顶部

liuxin

Flye安装及使用

公告