基因组拼接中常见的名词解释
基因组拼接中常见的名词解释
Read: 高通量测序平台产生的序列就称为reads。
Contig: 拼接软件基于reads之间的overlap区,拼接获得的序列称为Contig(重叠群)。
Scanffold: 基因组de novo测序,通过reads拼接获得Contigs后,往往还需构建454 Paired-end库或Illumina Mate-pair库,以获得一定大小片段(如3Kb, 6Kb, 10Kb, 20Kb)两端的序列。基于这些序列,可以确定一些Contig之间的顺序关系,这些先后顺序已知的Contigs组成Scanffold。
Contig N50: Reads拼接后会获得一些不同长度的Contigs。将所有的Contig长度相加,能获得一个Contig总长度。然后将所有的Contigs按照从长到短进行排序,当相加的长度达到Contig总长度的一半时,最后一个加上的Contig长度即为Contig N50。Contig N50 可以作为基因组拼接的结果好坏的一个判断标准。
Scanffold N50: Scanffold N50 与 Contig N50 的定义类似。Scanffold N50 可以作为基因组拼接的结果好坏的一个判断标准。
测序深度和覆盖度
测序深度是指测序得到的总碱基数与待测基因组大小的比值。假设一个基因大小为2M,测序深度为10X,那么获得的总数据量为20M。
覆盖度是指测序获得的序列占整个基因组的比例。由于基因组中的高GC、重复序列等复杂结构的存在,测序最终拼接组装获得的序列往往无法覆盖所有区域,这部分没有获得的区域就称为Gap。例如一个细菌基因组测序,覆盖度为98%,那么剩余2%的序列区域就是通过测序没有获得的。
参考来源:

浙公网安备 33010602011771号