fastq数据质控过滤软件—soapnuke 使用

#soapnuke githup地址: https://github.com/BGI-flexlab/SOAPnuke
#下载
git clone  https://github.com/BGI-flexlab/SOAPnuke.git
# 安装2.0version  参照readme.md  
For 2.X:
make
./SOAPnuke

--使用测试:

./SOAPnuke filter -1 /home_extend/u****/R/exam/newBGIseq500_1.fq.gz -2 /home_extend/u****/R/exam/newBGIseq500_2.fq.gz -C newBGIseq500_clean_1.fq.gz -D newBGIseq500_clean_2.fq,gz \
-l 10 -q 0.1 -n 0.01 -G 1 -Q 2 -o /home_extend/u****/R/exam/cleandata
## -o 指定输出目录

--参数设置介绍:

SOAPnuke -1 path_to_Fastq1 -2 path_to_Fastq2 -T 4 -n 0.1 -l 5 -q 0.5 -Q 2 -G -5 1 -o outdir -C path_to_cleanFastq1 -D path_to_cleanFastq2 
# 参数说明
-T 线程
#Adapter related:
-n, --nRate        FLOAT        N rate threshold  [0.05]
-l, --lowQual        INT        low quality threshold  [5]         
-q, --qualRate        FLOAT        low quality rate  [0.5]         

-Q, --qualSys        INT        quality system 1:illumina, 2:sanger[1],详见-G 参数。 
-G, --outQualSys            out quality system 1:illumina, 2:sanger[1],如果设置了就表示质量值体系选择为phred33,默认是phred64。这个说明文档不是很清楚,
在SOAPnuke中sanger表示phred33,illumina表示phred64质量体系。之所以会这样其实开发该软件的历史原因,在比较早期的时候,phred33和phred64这两个词用的还比较少。
开发人员知道的是sanger测序的质量值是ASCII-33,而illumina的质量值要-64(早期版本),因此为了好记,就直接用了这两个词,代表和sanger的一样,或者和illumina的一样;
这个参数和-Q是有同样的作用。-33的质量体系,使用-Q 2 (或者 -G ,也可以两个参数都使用)

-1, --fq1               FILE            fq1 file(required),read1的fasq文件
-2, --fq2               FILE            PE(双端)测序时,需要read2的fastq文件 ,即fastq2
-C, --cleanFq1          STR             clean fq1 file name(required ,gz format)
-D, --cleanFq2          STR             clean fq2 file name
-o, --outDir        STR             输出目录,默认当前目录    
-3, --maxReadLen    INT        read max length,default 49 for filtersRNA
-4, --minReadLen    INT        read min length,default 18 for filtersRNA,30 for other modules    

 

posted @ 2019-01-10 12:39  Yellow_huang  阅读(5005)  评论(0编辑  收藏  举报