fastqc结果中的Per sequence GC content, Sequence Duplication Levels 和 Overrepresented sequences

 

C含量分布图 Per sequence GC content

这个图理论上应该符合正态分布(也就是钟形曲线),除非有过表达的序列( over-represented sequences)[也就是在正态分布的基础上有一个尖尖的峰],或者存在其他物种的污染[也就是多个峰]

从这个图中可以看到,这个应该是符合过表达序列的情况,说明要么存在序列污染,要么是有个特别高表达的基因

 

重复序列数 Sequence Duplication Levels

这个图可以帮助判断文库的复杂程度,如果PCR扩增次数太多或者起始扩增底物太少,都会降低文库的复杂度。

这个图中可以看到,似乎有大量的重复序列,也就是说文库复杂程度低,可能与某个基因的过表达有关

 

过表达序列表 Overrepresented sequences

这个表的作用也非常重要!

它展示了长度至少20bp,数量占总数0.1%以上的reads碱基组成,它可以帮助判断污染(比如:载体、接头序列)

如果上面的GC含量分布图"挂了",这个表可以帮助我们判断来源,如果是已知的载体或者接头,它会列出来;如果不是,可以复制序列去blast。

比如这里就可以去复制表达最多的第一条序列去blast,然后发现它其实是一个基因,于是可以验证之前的猜想:基因过表达


来源:


posted on 2020-01-13 15:34  BPSO_mynotes  阅读(5993)  评论(0编辑  收藏  举报

导航