FastQC


注意:软件工具一般都会定期进行迭代更新,使用时如果出现问题,请查看官方文档

  • 用途:数据质控,评估数据质量

  • 网址:http://www.bioinformatics.babraham.ac.uk/projects/fastqc/

  • 如何认识一个原始的测序数据(fastq data)呢?一般我们可以从如下几个方面来分析:

    1. read各个位置的碱基质量值分布
    2. 碱基的总体质量值分布
    3. read各个位置上碱基分布比例,目的是为了分析碱基的分离程度
    4. GC含量分布
    5. read各位置的N含量
    6. read是否还包含测序的接头序列
    7. read重复率,这个是实验的扩增过程所引入的
  • 一般来说,对于二代测序,最好是达到Q20的碱基要在95%以上(最差不低于90%),Q30要求大于85%(最差也不要低于80%)

  • 分析碱基的分离程度

    • AT配对,CG配对,假如测序过程是比较随机的话(随机意味着好),那么在每个位置上A和T比例应该差不多,C和G的比例也应该差不多,两者之间即使有偏差也不应该太大,最好平均在1%以内,如果过高,除非有合理的原因,比如某些特定的捕获测序所致,否则都需要注意是不是测序过程有什么偏差。
  • GC含量

    • 二代测序平台或多或少都存在一定的测序偏向性,我们可以通过查看这个值来协助判断测序过程是否足够随机。对于人类来说,我们基因组的GC含量一般在40%左右。因此,如果发现GC含量的图谱明显偏离这个值那么说明测序过程存在较高的序列偏向性,结果就是基因组中某些特定区域被反复测序的几率高于平均水平,除了覆盖度会有偏离之后,将会影响下游的变异检测和CNV分析。
    • GC content of the central peak corresponds to the expected % GC for the organism(https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2909565/)
  • N含量分布图

    • N在测序数据中一般是不应该出现的,如果出现则意味着,测序的光学信号无法被清晰分辨,如果这种情况多的话,往往意味着测序系统或者测序试剂的错误。
  • 接头序列

    • 被测到的接头序列和低质量碱基一样都是需要在正式分析之前进行切除的read片段
  • FastQC使用:

# 支持同时输入多个文件或以通配符的形式输入fastq文件
/path_to_fastqc/FastQC/fastqc untreated.fq -o fastqc_out_dir/
  • 参数说明:

-o QC报告的输出目录,默认输出fastq文件的相同目录下,输出结果有.html和.zip两个文件
-t 使用线程数,每个线程占用250M内存,不要超过机器的可用内存,32 bit机器不能使用超过6线程
-h 帮助

  • illumina测序质量随序列增长逐渐降低
    • 信号衰减(signal decay)
      • Degrading fluorophores
      • A proportion of the strands in the cluster not being elongated
    • phasing
      • 桥式PCR之后会生成大量的DNA簇,簇内的DNA序列都是一样的,理想状态下,每一次循环之后,每一簇的所有DNA序列同时增长一个碱基,但是实际上总有少量的DNA分子没有延长,这种现象就是Phasing,酶活不足,3'端终止和荧光团未完全移除,掺杂具有无效3'端终止的核酸序列。有些时候一个DNA链有可能延伸了2个碱基,这种现象叫做Prephasing,由于叠氮dNTP的叠氮基丢失所致。在测序时,从第12个循环开始,就要把phasing的影响纳入考虑
    • Overclustering
      • flow cells中的2个DNA簇过于接近,导致信号重叠,将两个簇的信号解释为一个信号,降低了信号纯度,使整条read的质量降低
    • Instrumentation breakdown
      • Any sudden drop in quality or a large percentage of low quality reads across the read could indicate a problem at the facility.
 posted on 2020-06-24 09:33  WarningMessage  阅读(725)  评论(0编辑  收藏  举报