MultiQC使用指导

官网资料
 文献：MultiQC --- summarize analysis results for multiple tools and samples in a single report
参考资料一：整合 fastq 质控结果的工具

简介

MultiQC 是一个基于Python的模块, 用于整合其它软件的报告结果, 目前支持以下软件的结果整合:

Pre-alignment tools

Alignment tools

Post-alignment tools

参数说明及example


#如对fastqc生成的结果进行统计
cd fastqc_out
multiqc ./
ll ./
# -rw-r--r-- 1 1-MU_R1_paired_fastqc.zip
# -rw-r--r-- 1 1-MU_R2_paired_fastqc.zip
# -rw-r--r-- 1 1-WT_R1_paired_fastqc.zip
# -rw-r--r-- 1 1-WT_R2_paired_fastqc.zip
# -rw-r--r-- 1 2-MU_R1_paired_fastqc.zip
# -rw-r--r-- 1 2-MU_R2_paired_fastqc.zip
# -rw-r--r-- 1 2-WT_R1_paired_fastqc.zip
# -rw-r--r-- 1 2-WT_R2_paired_fastqc.zip
# -rw-r--r-- 1 3-MU_R1_paired_fastqc.zip
# -rw-r--r-- 1 3-MU_R2_paired_fastqc.zip
# -rw-r--r-- 1 3-WT_R1_paired_fastqc.zip
# -rw-r--r-- 1 3-WT_R2_paired_fastqc.zip
# -rw-r--r-- 1 5-MU_R1_paired_fastqc.zip
# -rw-r--r-- 1 5-MU_R2_paired_fastqc.zip
# -rw-r--r-- 1 5-WT_R1_paired_fastqc.zip
# -rw-r--r-- 1 5-WT_R2_paired_fastqc.zip
# -rw-r--r-- 1 6-MU_R1_paired_fastqc.zip
# -rw-r--r-- 1 6-MU_R2_paired_fastqc.zip
# -rw-r--r-- 1 6-WT_R1_paired_fastqc.zip
# -rw-r--r-- 1 6-WT_R2_paired_fastqc.zip
# drwxr-xr-x 2  multiqc_data
# -rw-r--r-- 1  multiqc_report.html


ll -h multiqc_data/
# total 36K
# -rw-r--r-- 1 multiqc_fastqc.txt
# -rw-r--r-- 1 multiqc_general_stats.txt
# -rw-r--r-- 1 multiqc.log
# -rw-r--r-- 1 multiqc_sources.txt

#也可以对多个文件夹下fastqc生成的结果进行统计
multiqc data/
multiqc data/ ../proj_one/analysis/ /tmp/results

#或者对指定文件夹下fastqc生成的结果进行统计
multiqc data/*_fastqc.zip
multiqc data/sample_1*

# -x/--ignore 指定的文件夹/文件不进行统计处理
multiqc . --ignore *_R2*
multiqc . --ignore run_two/
multiqc . --ignore */run_three/*/fastqc/*_R2.zip

#MultiQC忽略指定文件
multiqc . --ignore-samples sample_3*


#MultiQC only search the listed files which contain a list of file paths, one per row. 
#文件每行对应一个文件
multiqc --file-list my_file_list.txt

# -n/--name  更改输出文件的名称
#默认输出文件名：
# multiqc_data
# multiqc_report.html

# -o/-outdir 指定输出目录

# -f 覆盖同名目录
#-f, --force Overwrite any existing reports


# -v/--verbose 当存在两个同名的文件时，增加此参数可以区别两者，避免前者的数据被后者所覆盖

#默认情况下，记录的格式是：绝对路径和文件名
#By default, --dirs will prepend the entire path to each sample name.
#-dd/--dirs-depth num 指定记录num层路径；当num为负整数时，则从路径的起始处取


#记录绝对路径
multiqc -d .
# analysis_1 | results | type | sample_1 | file.log
# analysis_2 | results | type | sample_2 | file.log
# analysis_3 | results | type | sample_3 | file.log
#num   4		  3		   2  		1
#num   -1		  -2	   -3	  	-4


#记录一层路径
multiqc -d -dd 1 .
# sample_1 | file.log
# sample_2 | file.log
# sample_3 | file.log


multiqc -d -dd -1 .
# analysis_1 | file.log
# analysis_2 | file.log
# analysis_3 | file.log


# -t, --template [default|default_dev|geo|sections|simple],Report template to use.
#指定输出报告的模板，模板有：default|default_dev|geo|sections|simple

# --pdf 	指定输出文件是PDF文件，默认输出是HTML文件
#指的注意的是，此参数需搭配参数-t simple, 且pandoc模块必须存在，否则无法生成pdf
multiqc -t simple --pdf -n test ./

#-k/--data-format  解析数据目录，默认格式是：tsv; 此参数主要针对有大量样本需要处理
#-k, --data-format [tsv|json|yaml] Output parsed data in a different format.Default: tsv

# --data-dir 	指定生成数据目录，默认
# --no-data-dir     指定不生成数据目录                              

#-z/--zip-data-dir 压缩data directory
multiqc -n test00 -z ./
#test00.html
#test00_data.zip


# -m/--modules [module name]   运行指定模块
# -e/--exclude [module name]   除指定模块，其他模块均运行

Fastqc 报告说明

Per base sequence quality，每个read各位置碱基的测序质量。横轴碱基的位置，纵轴是质量分数， Quality score=-10log10p（p代表错误率），所以当质量分数为40的时候，p就是0.0001，质量算高了。红色线代表中位数，蓝色代表平均数，黄色是25%-75%区间，触须是10%-90%区间（黄色和触须我不是特别明白）。若任一位置的下四分位数低于10或者中位数低于25，出现“警告”；若任一位置的下四分位数低于5或者中位数低于20，出现“失败，Fail”。

Per tile sequence quality，检查reads中每一个碱基位置在不同的测序小孔之间的偏离度，蓝色代表偏离度小，质量好，越红代表偏离度越大，质量越差。

Per sequence quality scores, reads质量的分布, 当峰值小于27时，警告；当峰值小于20时，fail。

Per base sequence content，对所有reads的每一个位置，统计ATCG四种碱基的分布，横轴为位置，纵轴为碱基含量，正常情况下每个位置每种碱基出现的概率是相近的，四条线应该平行且相近。当部分位置碱基的比例出现bias时，即四条线在某些位置纷乱交织，往往提示我们有overrepresented sequence的污染。本结果前10个位置，每种碱基频率有明显的差别，说明有污染。当任一位置的A/T比例与G/C比例相差超过10%，报"WARN"；当任一位置的A/T比例与G/C比例相差超过20%，报"FAIL"。

Per base N content，当测序仪器不能辨别某条reads的某个位置到底是什么碱基时，就会产生“N”，统计N的比率。正常情况下，N值非常小。当任意位置的N的比例超过5%，报"WARN"；当任意位置的N的比例超过20%，报"FAIL"。

Sequence Length Distribution，reads长度分布，当reads长度不一致时报"WARN"；当有长度为0的read时报“FAIL”。

Sequence Duplication Levels，统计不同拷贝数的reads的频率。测序深度越高，越容易产生一定程度的duplication，这是正常的现象，但如果duplication的程度很高，就提示我们可能有bias的存在。横坐标是duplication的次数，纵坐标是duplicated reads的数目，以unique reads的总数作为100%。当非unique的reads占总数的比例大于20%时，报"WARN"；当非unique的reads占总数的比例大于50%时，报"FAIL“。

Overrepresented sequences，一条序列的重复数，因为一个转录组中有非常多的转录本，一条序列再怎么多也不太会占整个转录组的一小部分（比如1%），如果出现这种情况，不是这种转录本巨量表达，就是样品被污染。这个模块列出来大于全部转录组1%的reads序列，但是因为用的是前200,000条，所以其实参考意义不大，完全可以忽略。

Adapter content，接头含量

posted @ 2017-08-22 17:44 AdaWongCorner 阅读(2334) 评论(0) 收藏举报

刷新页面返回顶部

Ada's Corner

keep learning......

MultiQC使用指导