SAM格式各列含义

列含义

序号

列名

含义

1

Query Name (QNAME)

片段(template)的编号

2

FLAG

布尔特征值

3

Reference Name (RNAME)

比对到参考序列上的染色体号,如无法比对上则为*

4

Position (POS)

read比对到参考序列上,第一个碱基所在的位置。若是无法比对,则是0

5

Mapping Quality (MAPQ)

比对的质量;比对的质量分数,越高说明该read比对到参考基因组上的位置越准确,255说明此Reads的Mapping quality不可用

6

Compact Idiosyncratic Gapped Alignment Representation (CIGAR)

read比对的具体情况,前面的数字代表reads长度

“M”表示 match或 mismatch;
“I”表示 insert;
“D”表示 deletion;
“N”表示 skipped(跳过这段区域);
“S”表示 soft clipping(被剪切的序列存在于序列中);
“H”表示 hard clipping(被剪切的序列不存在于序列中);
“P”表示 padding;
“=”表示 match;
“X”表示 mismatch(错配,位置是一一对应的);

7

RNEXT

双端的另一条序列比对上的染色体号;

如果和这条相同,则为“=”;

如果未比对上,则为“*”

8

PNEXT

另一端匹配到参考基因组的位置,如果非双端,则该值为“0”

9

ISIZE

建库时将DNA打断成的长度

10

Sequence

具体序列,如果不储存这类信息,则为“*”

11

ASCII

read质量值

12

Optional fields

随各类软件变化

FLAG

根据二进制位的值表达信息

FLAG值

含义

序号(从右往左)

10进制值

16进制值

000000000000

本条read为SE数据,且成功比对到基因组

1

0

0x0

000000000001

这是PE数据来源的read

1

1

0x1

000000000010

本条read与本链配对的另外一条read均可以成功比对到参考基因组上

2

2

0x2

000000000100

本条read不能比对到基因组

3

4

0x4

000000001000

PE中与本链配对的另外一条read不能比对到基因组

4

8

0x8

000000010000

本条read是反向互补比对到基因组

5

16

0x10

000000100000

PE中与本链配对的另外一条read反向互补比对到基因组

6

32

0x20

000001000000

本条read是R1序列(来自R1.fastq.gz)

7

64

0x40

000010000000

本条read是R2序列(来自R2.fastq.gz)

8

128

0x80

000100000000

本条read比对到基因组的多处位置

9

256

0x100

001000000000

没有通过测序机器本身的质控。这个一般很少见到

10

512

0x200

010000000000

PCR or optical PCR or optical duplicate

11

1024

0x400

100000000000

存在结构变异,一条read比对到基因组上距离较远的多个位置(可能是不同染色体)

12

2038

0x800

SAM格式官方文档:http://samtools.github.io/hts-specs/SAMv1.pdf

 

 

 

posted @ 2023-01-07 10:37  小鱼圆又圆  阅读(394)  评论(0)    收藏  举报