生信学习-二代测序知乎专栏总结[转]

转自：https://zhuanlan.zhihu.com/p/20702684

1.基本概念

flowcell 是指Illumina测序时，测序反应发生的位置，1个flowcell含有8条lane
lane 每一个flowcell上都有8条泳道，用于测序反应，可以添加试剂，洗脱等等
tile 每一次测序荧光扫描的最小单位
reads 指测序的结果，1条序列一般称为1条reads
bp base pair 碱基对，用于衡量序列长度
双端测序 只一条序列可能比较长如500bp，我们可以两端每端各测150bp
junction 上面说的双端测序，中间会留有200bp测不到的东西，我们叫junction
adapter 就是测序中需要的一段特定的序列，有类似于引物的功能
primer PCR中的引物

cDNA：complementary DNA互补脱氧核糖核酸。以一种逆转录酶，以mRNA为模板做成的复制品，将真核生物的基因(以mRNA的形式)复制到原核生物细胞中。

//哭，昨天写的没保存啊，写了好多呢，哭死。

2.BWT算法

来自视频：https://www.bilibili.com/video/av15743137

二代序列：较短250bp，相比较精度较高1%=Q30.

对于三代测序来说：数据较长，但是不稳定。

首先讲到了双序列比对——pairwise alignment，有全局比对（Needleman worsh）、局部比对（Smith wosen）

但是对于基因组比较的时候，相当于把seq1换成了ref,先从Seq2里找到一个seed，通过seed找到ref的index，再把这个ref附近的序列做pairwise alignment，

*高通量测序中，index的作用：区分各组样本数据，每个样本都有不同的index，在测序时会通过index将不同的样本分开，形成不同的文件夹。

那么第一步是比较重点的：第一代有华大的SOAP,MAQ等，是将基因组打为一小段一小段的，然后通过哈希存储，知道这一小短序就能知道它所在的位置，但是占用内存高速度慢找的准。

第二代就是bowtie解决速度的问题。

将测序数据比对到参考基因组。

BWT算法：最早用于做数据压缩。

比如对一个初始序列：ACAACG；

第一部处理+$，进行平移：得到一个矩阵，称为原始矩阵Raw M：

ACAACG$

$ACAACG

G$ACAAC

CG$ACAA

ACG$ACA

AACG$AC

CAACG$A

将矩阵进行转换 ,M': ，默认将$开头作为第一行：

很明显这个第二个矩阵，就是将第一个矩阵以字母顺序排序开头而已。

需要将第1列作为F列，最后一列作为L(ast)列；

那么转换矩阵中F和L的关系：

1）同一行内，L是F的前一个字符；（因为它就是那样平移过去的）

2）单字母的相对位置不变，比如L中的第一个C是对应F中的第一个C

那么：只需存储L和相对位置，可以根据L推出F，根据LF可以知道整个ref。那么怎么找呢？

倒着查找即可。首先最后一个是$，那么在L的$对应F中的第一个，对应L是G，那么可以得出$前是G；

L中的G对应F中的G，对应L中的C，可以得出G前面是C，以此类推。哇哦果然可以进行数据压缩。

那么上面进行的是整个基因组的比对，但是如果想进行一个段序列比如CAA呢？下面进行一下演示：

比对时也是倒序比对的，有时会允许出错，有一个mismatch阈值，那么最终可以比对上。

所以最终只需要存储L和每个字母的位置即可，F可以根据L中的字母拍出来序啊，所以不用存储的。

有个同学提问说，允许mismatch是否允许gap?（好厉害啊，我怎么都没考虑，只是接受不去思考啊！）

bowtie1不支持Gap open,中间不允许插入缺失。比对过程下：

序列大约长度为36bp，将前28作为高质量区域，并且高质量又平分为两段，前半段14为HQ，后半段14为LQ，先用HQ作为seed去上述过程，再用LQ作为seed去做上述过程，如果总的mismatch<=2，那么就接着进行后面的比对，如果>2,就认为比对不上，这个2参数是可以调整的。

bowtie2的比对过程：支持了gap open问题；

第一步选择seed区域，

有两种方法：

1.每个fragment长度是20，其中前18是一个seed,再跟两个gap，这样用seed片段去比对。

2.10-16，比如第一次选1-16，那么第二次选10-26，有6个的overlap，也就是window=10；

这样通过将seed与基因组进行比对，就可以知道当前序列在基因组中的大致位置，将在基因组中的序列取出，此时再用NW或者SW算法进行比对，这个时候就可以有gap了，但是seed中间是不能有map的。

unique map包含两种：一种是在基因组中只有一个map；另一：有一个map得分很高，另一个得分低很多。

但是up主认为这种没有太大的意义，因为基因组中duplication非常多。

3.第一代测序技术Sanger

//看一下那个视频和博客。

posted @ 2018-10-11 22:56 lypbendlf 阅读(3012) 评论(0) 收藏举报

刷新页面返回顶部

生信学习-二代测序知乎专栏总结[转]

1.基本概念

2.BWT算法

3.第一代测序技术Sanger

公告