生物信息ID大全 | rsid | Ensembl | HGNC | Entrez | Refseq | Uniprot | OMIM

 

2023年05月01日

ID转换,一行搞定

library(org.Mm.eg.db) # mouse
library(org.Hs.eg.db) # human
library(clusterProfiler)
gene.df <- bitr(genes, fromType = "SYMBOL", toType = c("ENSEMBL", "ENTREZID"), OrgDb = org.Hs.eg.db)

 


 

rsid

common SNP的ID,一般以rs开头,其实完全可以用坐标代替,那样可读性就很差了。

我们来看看一个SNP有哪些基本信息?

  • Position,最基本的,染色体,坐标,可见一个SNP就是一个基因组site
  • annotation:取决于它落到了哪一个区间,可能有多种注释,因为一个genomic的region可以有多种注释
  • Alleles:这个很重要,对于双倍体,大部分只有两个alleles,如果跟疾病有关,那一个就是protective,一个是risk allele。【一个mutation如何才能变为一个SNP?】
  • Frequency:就是一个allele在一个物种里的频率,排第二的就是MAF,MAF太小的GWAS就分析不了了,技术限制

 

Gene ID

这个标准比较多,有Ensembl ID,HGNC ID,Entrez ID(NCBI),Refseq ID

Ensembl:https://asia.ensembl.org/index.html

HGNC:https://www.genenames.org/

Entrez:https://www.ncbi.nlm.nih.gov/gene/672 【案例】

Refseq:https://www.ncbi.nlm.nih.gov/nuccore/NM_031991.4【所有物种,很少用】

 

HUGO symbol

Gene symbol

这部分极其麻烦,急需统一。 给基因取名字是比较随意的事情,导致一个基因在历史上有很多Aliases [ˈeɪliəs]

https://www.genecards.org/cgi-bin/carddisp.pl?gene=TASOR2

在gtf文件里这个基因叫FAM208B,在VEP注释结果里这个基因叫TASOR2,他们的ENSG ID都是ENSG00000108021【无意发现VEP的symbol有一半无法与gtf里的symbol匹配,才发现这个问题】

如果不负责任,简单的remove掉不匹配的,也可以出结果,但会丢失掉很多信息。

接下来我就要想办法,如何用R包来统一不同系统的symbol。

 

Multi-symbol checker 完美解决这个问题【HGNC提供】

接下来把gtf里的Previous symbol导出来,用这个工具就可以得到Approved symbol。

统计得出gtf里的34153个symbol,有11290是在HGNC里找不到名字的,其中1162个是alias,可见gene symbol的历史复杂性,想统一是何其的难。

 

下载最新的HGNC symbol,以及对应的ENSG ID,https://www.genenames.org/download/custom/。 

 

Transcript ID

isoform

ENST

现有的ID都是已知的,由于技术的更新,这部分会飞速更新。

 

Protein ID

Uniprot ID to other ID (ENSG etc.)

Uniprot里提供了哪些信息:

  • 参与的具体的生化反应
  • 涉及到的所有化合物
  • 信息太多了,看不过来

 

发现:一个 Uniprot ID可能对应多个ENSG ID,但基因名却是一样的。

LOX5_HUMAN	ENSG00000012779  ALOX5
LOX5_HUMAN	ENSG00000275565  ALOX5

 这是为啥?

因为一个蛋白可能是由多个DNA序列产生的,这里就是,ENSG00000012779【This gene maps to 45,869,624-45,941,567 in GRCh37 coordinates.】,而ENSG00000275565【This gene maps to 45,916,924-45,988,867 in GRCh37 coordinates.】

而且产生的transcript的名字也不一样。

这里可以明白:一个protein对应一个gene,但一个gene可以对应多个基因组区域,而ENSG ID则可以区别不同区域的同名gene。

 

uniprot ID也存在重名的情况,但是很少。【有统一标准】

E9PEK4_HUMAN	ENSG00000182578
CSF1R_HUMAN	ENSG00000182578

 

 

OMIM ID

某个基因对应的疾病的信息

https://omim.org/entry/113705

pathology病理学,从病的角度来看一切。

看看这个数据库里有还什么信息:

  • Cytogenetic location,细胞遗传学位置,如:17q21.31  
  • Genomic coordinates
  • Phenotype,疾病的名字
  • 历史研究,189篇文献引用,相当于文献综述。

 

会详解这些ID之间的相互转换

 

待续~

 

posted @ 2021-03-10 15:05  Life·Intelligence  阅读(3284)  评论(0编辑  收藏  举报
TOP