人类基因组在三大基因数据库中的不同版本

在数据分析中,经常需要下载物种的参考基因组序列,这时有很多数据库可以选择,比如NCBI, Ensembl, UCSC这三个通用的数据库,或者该物种特有的数据库,

比如模式生物拟南芥等有专门的数据库。

在NCBI, Ensembl 和 UCSC中对于同一个物种,编号不统一,在这里整理一下它们之间的关系,以人类基因组为例:

在NCBI中,对于不同的拼装版本,以NCBI Build Number 进行区分,而相同的版本之间又有微小的区别,以Version 表示不同的小版本,

在下面的连接中可以看到人类基因组之前的版本,

比如BUILD.36.1, NCBI Build Number 为36, Version 为1, 从BUILD 37.1 开始,又有了新的命名方式,GRCh37

有个CRC的组织(http://www.ncbi.nlm.nih.gov/projects/genome/assembly/grc/),该组织是由EBI,NCBI等组织联合起来的学术团体,对基因组的不同拼装版本进行简短而统一的命名,h表示人类,37

表示版本号,对于同一个版本,会有小的修改,此时用p加上编号进行标识,比如Build 37.3 又命名为GRCh37.p5 ,p代表patch, 补丁;

目前比较常用的版本有GRCh37 和CRCh38 两个版本;

在Ensembl 中,有不同的release ,比如

人类基因组从release-76到release-83对应 GRCh38, 从release-55到release-75对应GRCh37

这个从命名方式可以看出来,以release-83为例:

人类基因组第一条染色体命名为 Homo_sapiens.GRCh38.dna.chromosome.1.fa.gz,其中的CRCh38就表示拼装的版本

 

在UCSC中,

hg38对应GRCh38

hg19对应GRCh37

还有一点需要注意的是, Ensembl下载下来的fasta序列, 其标识符中不包含chr,

比如人类基因组1号染色体,在UCSC和NCBI中下载下来的标识符为>chr1,而Ensembl 中为>1

 

posted on 2016-02-14 17:49  庐州月光  阅读(9564)  评论(0编辑  收藏  举报