生物信息学数据库大全:28个常用生信数据库汇总(单细胞、转录组、蛋白质、通路分析必备)
随着高通量测序技术的发展,生物信息学数据库已经成为生命科学研究不可或缺的基础设施。无论是单细胞转录组分析、宏基因组研究,还是疾病机制解析、蛋白互作网络分析,科研人员几乎每天都要和各种数据库打交道。
这些数据库既是原始数据的“数据仓库”,也是基因功能研究的“注释工具”。为了方便科研人员快速查找与使用,本文系统整理了28个生物信息学常用数据库,按照数据类型和研究用途分为五大类:

基本覆盖单细胞、转录组、宏基因组、蛋白质组等生信分析的核心数据资源。
收藏本文,相当于拥有一份生物信息学数据库工具箱。
一、组学数据数据库
在进行生信分析之前,第一步往往是获取高质量的公共数据。以下数据库主要用于高通量测序数据存储、提交与下载,也是论文发表时常用的数据提交平台。
GSA(GenomeSequenceArchive)
由国家生物信息中心(CNCB)建设的中国版SRA,是国内重要的组学原始数据归档平台。
国内访问速度快,越来越多国际期刊也开始接受GSA数据提交。

SRA(SequenceReadArchive)
NCBI旗下全球最大的高通量测序数据仓库,收录转录组、宏基因组、单细胞测序等各类原始数据,是公共数据二次分析最常用的数据源。

https://www.ncbi.nlm.nih.gov/sra/
GEO(GeneExpressionOmnibus)
NCBI经典数据库,专门存储基因表达数据,包括基因芯片和RNA-seq数据。
在转录组和单细胞研究中使用非常广泛。

https://www.ncbi.nlm.nih.gov/geo/
GWH(GenomeWarehouse)
国家生物信息中心维护的基因组数据库,专注基因组序列的存储、发布和共享。

二、基因与蛋白注释数据库
当获得一批基因或蛋白列表后,通常需要查询它们的功能、结构、定位和相关文献。这类数据库就是生信分析中最常用的基础注释工具。
NCBIGene
跨物种基因信息数据库,提供基因名称、染色体位置、转录本信息、同源基因和相关文献等完整注释。

https://www.ncbi.nlm.nih.gov/gene/
GeneCards
最著名的人类基因综合数据库之一,整合150多个数据源,几乎涵盖所有基因相关信息。

HGNC
人类基因命名标准数据库,规范基因Symbol和别名,是论文写作和数据标准化的重要参考。

UniProt
全球最权威的蛋白质数据库,提供蛋白质序列、结构域、功能注释、翻译后修饰等信息。

PDB(ProteinDataBank)
蛋白质三维结构数据库,收录实验解析得到的蛋白质结构,是结构生物学研究的重要资源。

InterPro
蛋白质家族与结构域数据库,整合多个数据库资源,可用于蛋白结构域预测和功能分类。

https://www.ebi.ac.uk/interpro/
HumanProteinAtlas
人类蛋白表达图谱数据库,展示蛋白在不同组织、细胞和亚细胞中的表达定位。

三、通路数据库与蛋白互作网络数据库
差异基因分析之后,研究者通常需要进行功能富集分析或构建蛋白互作网络(PPI),以下数据库是最常用的工具。
KEGGPATHWAY
生信分析中最经典的代谢与信号通路数据库,几乎所有富集分析软件都支持KEGG。

WikiPathways
开源通路数据库,社区持续更新,物种覆盖范围更广。

STRING
最常用的蛋白互作数据库之一,可以一键构建蛋白互作网络并筛选核心基因。

BioGRID
高质量蛋白互作数据库,数据主要来自实验验证和文献挖掘。

四、转录调控数据库
如果想进一步研究转录因子调控、miRNA调控或调控网络,以下数据库非常重要。
JASPAR
开放的转录因子结合基序数据库,是TF结合位点预测的经典资源。

miRBase
最权威的miRNA数据库之一,收录大量miRNA序列与注释信息。

PlantTFDB5.0
植物转录因子数据库,提供TF分类、序列和功能预测。

hTFtarget
基于ChIP-seq数据构建的人类TF靶基因数据库。

https://guolab.wchscu.cn/hTFtarget/
HOCOMOCO
高质量人类和小鼠转录因子结合基序数据库。

https://hocomoco11.autosome.ru/
五、特色生信数据库
在植物研究、疾病研究和单细胞研究中,还有很多专业数据库。
Phytozome
植物基因组数据库,支持比较基因组学研究。

https://phytozome-next.jgi.doe.gov/
PlantPhoneDB
植物细胞通讯数据库,提供配体-受体互作信息。

https://jasonxu.shinyapps.io/PlantPhoneDB/
scPlantDB
植物单细胞数据库,提供细胞标记基因和细胞图谱。

https://biobigdata.nju.edu.cn/scplantdb/home
PCMDB
植物细胞Marker数据库。

https://www.tobaccodb.org/pcmdb/homePage
PRGdb
植物抗病基因数据库。

MalaCards
人类疾病数据库,整合疾病相关基因、通路和药物信息。

GEPIA2
基于TCGA和GTEx数据的在线分析平台。

LncRNADiseasev2.0
LncRNA与疾病关联数据库。

http://www.rnanut.net/lncrnadisease/index.php/home
在实际科研中,生物信息学分析通常会按照以下流程使用数据库:
公共数据获取 → 基因功能注释 → 通路富集分析 → 调控网络解析 → 专业数据库验证
如果搭配在线生信分析平台(例如HiOmics),可以将这些数据库资源整合到统一分析流程中,大幅提高研究效率。
本文整理的生物信息学数据库基本覆盖了生信研究最常见的数据资源。如果你经常进行单细胞分析、转录组分析、宏基因组分析或蛋白质组研究,建议收藏作为常用工具参考。


浙公网安备 33010602011771号