fastqc安装及使用

fastqc是高通量序列（fa/fq）质量控制（QC）分析工具。它可以快速地对测序数据进行质量评估，得到多个测序数据的质量参数，让我们对测序数据质量有个初步的认识，从而判断后续的质控如何进行。

一、安装

conda install -c bioconda fastqc

二、语法

fastqc seqfile1 seqfile2 .. seqfileN
fastqc [-o output dir] [--(no)extract] [-f fastq|bam|sam] [-c contaminant file] seqfile1 .. seqfileN

三、使用

fastqc -o <output dir> -t 16 <in.R1.fq.gz> <in.R2.fq.gz>

四、参数

-o --outdir       FastQC生成的报告文件的储存路径，生成的报告的文件名是根据输入来定的
-f --format       指定输入文件的格式
--extract         生成的报告默认会打包成1个压缩文件，使用这个参数是让程序不打包
-t --threads      选择程序运行的线程数，每个线程会占用250MB内存，越多越快咯
--min_length      设置序列的最小长度，≥最长read的长度
-c --contaminants 污染物选项，输入的是一个文件，格式是Name [Tab] Sequence，里面是可能的污染序列，如果有这个选项，FastQC会在计算时候评估污染的情况，并在统计的时候进行分析，一般用不到
-a --adapters     也是输入一个文件，文件的格式Name [Tab] Sequence，储存的是测序的adpater序列信息，如果不输入，目前版本的FastQC就按照通用引物来评估序列时候有adapter的残留
-q --quiet        安静运行模式，一般不选这个选项的时候，程序会实时报告运行的状况

五、脚本批处理

PS: 处理重测序数据时非常需要，运行脚本前别忘了切换至工作目录（存放批量fastq文件的目录下），同时需要创建输出文件夹FASTQC存储输出文件

具体可参考如下脚本：

#!/bin/bash
#program:
#       Checking sequencing reads quality with FASTQC
#2022/9/16
for id in *fq
do
echo $id
fastqc -o /home/liuxin/output/FASTQC -t 16 --extract $id
done

具体操作如下：

vim ngs_fastqc.sh     #添加脚本内容并修改处理文件格式fq/fa或者fastq/fasta，并调整输出路径即可
chmod u+x ngs_fastqc.sh
bash ngs_fastqc.sh

运行情况如下：

六、结果查看

生成的HTML文件可本地化后查看，其中包含分门别类的统计信息，如基本统计信息、GC含量、碱基位点质量等。查看HTML结果如下：

PS：后续有时间再对结果报告深入研究。

posted @ 2022-09-16 23:04 pd_liu 阅读(3823) 评论(0) 收藏举报

刷新页面返回顶部

liuxin

fastqc安装及使用

公告