生物信息 | 数据库 | 预测工具 | 数字化汇编目录

生物信息泛指发生在生命体内的所有的活动信息,是控制我们生老病死的根本原因。

要想开发一个大一统模型,那就必须对该系统的核心的方方面面有扎实的理解。

先根据初高中知识,按中心法则的上游到下游分个类,DNA、RNA、蛋白质、代谢物,最后补充表观、药物、整合、癌症。

 

DNA相关数据库

Human DNA序列

  • 人类基因组计划

基因组功能注释

  • 蛋白编码区 - Genecode
  • 非编码区 - ENCODE、Roadmap

Human variant

  • dbSNP
  • gnomAD
  • 千人基因组计划 - 10k
  • haplotype - HapMap
  • InDel
  • CNV
  • SV

Human diseases and traits variants

  • GWAS Catalog
  • OMIM

泛基因组

 

相关预测 

预测未知DNA序列来源 - BLAST,如测序中没比对上的序列可能是杂菌

预测variant的功能【GWAS下游热门领域】

  • 编码区 - VEP、annovar
  • 非编码区 - enhancer区

 

表观数据库

ENCODE

Roadmap

Cistrome

 

相关预测

TF靶基因预测 - 做个TF ChIP-seq即可

预测SNP的表观效应,prioritize regulatory variants - DeepSEA 【热门领域】

 

RNA相关数据库

Human RNA序列

全长转录本

lncRNA

miRNA

可变剪切AS

 

 

基因相关数据库

调控因子

  • 转录因子TF - 靶基因预测 
  • 可变剪切调控 - 靶exon预测

基因集

  • GO
  • MSigDB - GSEA

基因调控网络GRN

 

蛋白质相关数据库

蛋白质互作网络PPI

蛋白质序列

蛋白质结构

蛋白质功能

 

蛋白结构预测 AlphaFold

 

代谢物相关数据库

代谢物结构

代谢网络

 

Drug相关数据库

drugdb

 

整合型数据库

eQTL

  • GTEx

DeepSEA【见上】

 

癌症数据库

TCGA

 

 

三位一体,一个蛋白编码基因的三种状态,有点宗教的意思了。

 

posted @ 2021-08-06 15:58  Life·Intelligence  阅读(443)  评论(0编辑  收藏  举报
TOP