常用数据库

 

 

nr: 

nr的数据库到底算是核酸还是蛋白的数据库呢?

nr意思和明显,非冗余数据库,它的名字nr就是“non-redundant”的缩写。nr还是作为一个非冗余数据库设计的,因为它剔除了冗余序列最主要的来源(EST, STS, GSS, HTGS)
从blast官网给出的上面的截图可以看出,nr既在蛋白也在核酸数据中有。因为对于所有已知的或可能的编码序列,nr中的记录都给出了相应的氨基酸序列(通过已知或可能的读码框推断而来),对于很多还给出了在专门蛋白数据库中的序列号。而PDB + SwissProt + PIR + PRF这些蛋白数据库中的条目,都给出了编码它们的核酸序列号,可以索引到nr中的相关序列。所以说nr相当于一个以核酸序列为基础的交叉索引,将核酸数据和蛋白数据联系起来
 

目前有很多的数据库都存储了蛋白序列,比如NCBI Refseq, protein, swissprot 等,在各个数据库之间,或者是在某个数据库中,蛋白序列有大量冗余;为了方便使用,ncbi 构建了nr 库, 全称是 RefSeq non-redundant proteins;

Non-redundant protein sequences from GenPept,  Swissprot, PIR, PDF, PDB, and NCBI RefSeq

 

 

SwissProt:

SWISS-PROT是经过注释的蛋白质序列数据库,由欧洲生物信息学研究所(EBI)维护。数据库由蛋白质序列条目构成,每个条目包含蛋白质序列、引用文献信息、分类学信息、注释等,注释中包括蛋白质的功能、转录后修饰、特殊位点和区域、二级结构、四级结构、与其它序列的相似性、序列残缺与疾病的关系、序列变异体和冲突等信息。

SwissProt数据库中的所有序列条目都经过有经验的分子生物学家和蛋白质化学家通过计算机工具,查阅有关文献资料仔细核实的。

SwissProt数据库的每个条目都有详细的注释,包括结构域、功能位点、跨膜区域、二硫键位置、翻译后修饰、突变体等。该数据库中还包括了与核酸序列数据库EMBL/GenBank/DDBJ、蛋白质结构数据库PDB以及Prosite、PRINTTS等十多个二次数据库的交叉引用代码

 

KEGG

 

KOG

 

GO

 

nt:

刚才下载的nr库就是蛋白库,blastx就是用来将核酸序列比对到蛋白库上的。
nt就是核酸库)

 

pfam:

一个基因转录的蛋白质分子中可以包含多个结构特异并且功能不同的区域,这些区域称之为domain,domain 可以看作蛋白质功能的基本单位,蛋白质的功能由包含的多个domain共同决定,研究domain, 可以更好的研究蛋白质功能,而具有相同结构域的基因往往形成一个基因家族。

基因家族是来源于同一个祖先,由一个基因通过基因重复而产生两个或更多的拷贝而构成的一组基因,它们在结构和功能上具有明显的相似性,编码相似的蛋白质产物。

 

Pfam数据库是蛋白质家族的数据库,根据多序列比对结果和隐马尔可夫模型,将蛋白质分为不同的家族。

 

 

 

 

来源:

http://blog.sina.com.cn/s/blog_670445240101kh3w.html

https://www.cnblogs.com/xudongliang/p/8086572.html

https://www.biomart.cn/experiment/430/586/588/20994.htm

https://baike.baidu.com/item/SwissProt/3462118?fr=aladdin

https://blog.csdn.net/weixin_33806300/article/details/86395602

https://www.omicsclass.com/article/877

 

posted on 2020-11-18 22:14  BPSO_mynotes  阅读(793)  评论(0编辑  收藏  举报

导航