转载--浅谈Entrez ID

转载地址:https://vip.biotrainee.com/d/109-entrez-id

图片无法打开,可去原网页看。

  • Entrez ID是什么

  • 除了Entrez ID,还有什么

  • 如何搜索Entrez ID

  • 各种Gene ID间的转换

  • 什么鬼,Gene ID的版本问题

Entrez ID是什么

Entrez ID实际上是指的Entrez gene ID,是对应于染色体上一个gene location的。每一个发现的基因都会被编制一个统一的编号,而Entrez ID是指的来自于NCBI旗下的Entrez gene数据库所使用的编号。
每个基因的编号具有唯一性,包括不同种属生物间的同源基因编号也不相同,例如同样是TP53基因,人源TP53的Entrez ID为7157,zebrafish源的Entrez ID为30590,chichen源的Entrez ID为396200。

Entrez是什么

Entrez是一个综合性生物信息数据检索引擎,包含核酸、蛋白质、基因、基因组、GEO、pubMed等很多常用的数据库,可以将其类比为百度,正如百度也有百度图片、百度新闻、百度文库、百度学术等等子项目一样。我们需要搜索什么样的信息就使用相应的子数据库,也可以直接在Entrez中搜索,那么Entrez将给出所有数据库中的检索信息。
实际上我们说去NCBI上检索一下时所称呼的NCBI往往就是指的Entrez,不过事实上这两个词是不对等的,因为NCBI实际上是一个组织,而Entrez是一个综合的生信检索引擎。

除了Entrez ID,还有什么

Entrez ID只是Entrez gene数据库的编号系统,实际上是存在多种gene编号系统的,比如时常会在生物信息分析中用到的Ensembl ID。如果你想进一步了解什么是Ensembl,强烈建议你去看Jimmy大神对主流参考基因组的梳理直播我的基因组5。根据DAVID的Gene ID Conversion Tool的ID列表,如有AGILENT_ID、BGD_ID、ENSEMBL_GENE_ID、ENTREZ_GENE_ID、GENEBANK_ACCESSION等,截止2017.09共计有30种。

如何搜索Entrez ID
搜索基因的相关情况,可以使用Entrez Gene数据库进行检索,如下图所示,选择Gene数据库,并将感兴趣的基因的名称或ID键入,点击搜索即可。
http://webxmt.image.alimmdn.com/img/3473227920950453304.png
如果键入的是Gene名称

其实更准确地说,如果键入的是Gene symbol,那么就会出现一个检索列表,如图所示,列表里面是各种物种的此基因的记录。根据物种选择相应的条目点击查看即可。
http://webxmt.image.alimmdn.com/img/3473791966120128817.png
如果键入的是Gene ID

如果键入的是Gene ID,那么会直接跳转进入相应的基因页面,如下图,一个Entrez Gene记录,会包含多种基因信息:gene symbol、基因名称、种属、Entrez gene ID及Ensemble gene ID等。
http://webxmt.image.alimmdn.com/img/3834926357577609318.png

各种Gene ID间的转换

在生信数据的预处理阶段,常会遇见各种Gene ID之间的转换如Entrez gene ID与Ensembl gene ID之间的转换,或者gene ID与gene symbol之间的转换。
转换可以使用网上工具完成,如DAVID的ID Conversion Tool、bioDBnet或ENSEMBL的bioMart转换工具。下面我就DAVID的ID转换工具进行演示:
DAVID ID转换工具的实际演示
任务 将一组Ensembl Gene ID转换为Entrez Gene ID,Gene列表如下
http://webxmt.image.alimmdn.com/img/3847825815076234337.png

1.打开DAVID ID转换工具
打开DAVID,并进入Gene ID转换工具。
http://webxmt.image.alimmdn.com/img/4122590691399656805.png

2.上传序列
按照图示步骤进行即可,尤其需要注意的是,此时一定不要点击右侧的option1的提交,也不用管option1里面的Gene ID类型。否则,序列都没有上传,更不要谈ID转换了。
http://webxmt.image.alimmdn.com/img/7234019271505162546.png

3.选择物种信息
有时输入的序列并不能被完全识别,这一定程度上和各个Gene ID数据库的版本有关系,因此在此页面内可以选择一下物种信息。如图所示,输入的8个ID还是被全部识别出来了。
重要 假如是要将Gene Symbol转换成各种Gene ID,此处的物种是必选项,按需选择。
http://webxmt.image.alimmdn.com/img/7220450203707586359.png

4.选择ID转换工具
上一步结束后,请在结果页面中按照本图示进行操作,进入ID转换工具。
DAVID的操作逻辑 先将你的序列上传,然后选择物种信息,必要时还有背景信息,经过这几步之后,你就可以选择各种工具对你的序列进行分析和转换了。
http://webxmt.image.alimmdn.com/img/7365694800678760754.png

5.进行ID转换
先选择要转换成的Gene ID类型,然后点击提交即可。
http://webxmt.image.alimmdn.com/img/3977867469920745520.png

6.转换结果
如图示,Ensembl Gene ID已经转换为Entrez Gene ID。
http://webxmt.image.alimmdn.com/img/3762587503378642022.png

什么鬼,Gene ID的版本问题

同一个ensemble ID在不同版本genecode中代表不同的基因
同样是ENSG00000211563,基因Symbol有MIR338、AC115099.1等。
注意 Ensembl Gene ID编号末尾的小数点后面的数字代表版本。
http://webxmt.image.alimmdn.com/img/3905241247227470391.png
同一个基因在不同版本genecode中的结果不同
同样是MIR338基因,存在多种Ensembl Gene ID
http://webxmt.image.alimmdn.com/img/7364568892131522868.png
因此考虑到Gene ID的版本复杂度,在实际的Gene ID转换以及对Gene ID进行相关分析时,一定要密切关注ID版本号有可能带来的错误。

参考

1.简述几种Gene ID的转换方法
2.#TCGA系列#使用HGNC数据库对miRNA名称ID进行转换

本文作者:冰糖

posted @ 2019-06-11 13:49  mingbaby  阅读(7933)  评论(0)    收藏  举报