GEO Gene Expression Omnibus
GEO Gene Expression Omnibus 基因表达数据库
网址:https://www.ncbi.nlm.nih.gov/geo/
GEO的数据存储方式
GEO数据库具体存放四类数据:GSE、GDS、GSM、GPL
GEO Series Study GSE号(GSExxx)对应的是整个研究项目的系列的数据,可能会涉及不同平台。
GEO DataSet GDS号(GDSxxx)对应的是一个同一平台的数据集,这些包括包括从微整列和高通量序列技术生成的数据。
GEO Sample GSM号(GSMxxx)对应单一样本的数据信息,它只能是单一平台的数据
GEO Platform GPL号(GPLxxx)对应一个平台的信息,一般不接触
通常 GSE和GDS中会包含多个GSM数据
另外,GEO Profiles数据库是GEO的工作人员根据用户提交的数据整理后的数据,倾向于某个基因在不同数据集中的表达情况。
GEO数据检索与下载
GEO数据库支持关键字检索和布尔逻辑,和使用pubmed非常相似,一般我们都是在GEO DataSets数据库中检索
R包的安装与下载数据
GEOquery 的官网 http://www.bioconductor.org/packages/release/bioc/html/GEOquery.html
if (!requireNamespace("BiocManager", quietly = TRUE)) install.packages("BiocManager") BiocManager::install("GEOquery")
利用 GSE 号下载
通过阅读文献查找感兴趣的GSE号,下载对应的表达数据和平台信息等,可以利用GEOquery中的getGEO()函数下载series_matrix.txt。例如GSE57820:
> library(GEOquery)> # destdir设置当前目录,getGPL 和AnnotGPL都设置TRUE,可以下载和获得平台的注释文件> GSE57820 <- getGEO("GSE57820", GSEMatrix =TRUE, destdir = ".", getGPL = T, AnnotGPL = T)利用GDS号下载
> GDS6100 <- getGEO("GDS6100", GSEMatrix =TRUE, destdir = ".", getGPL = T, AnnotGPL = T)利用GSM号下载
利用GSM号下载的是单样本的表达数据,例如GSM1394594
> GSM1394594 <- getGEO("GSM1394594", GSEMatrix =TRUE, destdir = ".", getGPL = T, AnnotGPL = T)利用GPL号下载
针对芯片平台,利用GPL号下载得到的数据是芯片的设计和注释信息,可以获得探针组和基因的对应关系,例如GPL10558:
> GPL10558 <- getGEO("GPL10558", GSEMatrix =TRUE, destdir = ".", getGPL = T, AnnotGPL = T)
参考
https://www.jianshu.com/p/0d32fd410bcf
浙公网安备 33010602011771号