DEPICT实现基因优化（gene prioritization）、gene set富集分析（geneset enrichment）、组织富集分析（tissue enrichment）

全基因组关联分析除了找到显著的关联位点，我们还可以做基因优化、geneset富集分析、组织富集分析，下面具体讲一讲怎么利用GWAS的summary数据做这个分析。

summary数据就是关联分析的结果文件

1 软件安装前请确保需要满足的系统环境

1.1 支持Mac OS X 或者 UNIX，不支持windows系统

1.2 Java SE 6（或者更高），没有安装Java请自行安装

1.3 需要PIP

怎么确定系统有没有安装PIP呢，输入命令which pip,如果没有路径弹出，说明没有PIP，需要安装

1.4 需要Python依赖包

pip install intervaltree

或者

conda install -c conda-forge intervaltree

1.5 需要Pandas包（0.15.2或者以上版本）

pip install pandas

1.6 PLINK(1.9 版本)

1.7 python(2.7 版本)

2 下载、安装

wget http://www.broadinstitute.org/mpg/depict/depict_download/bundles/DEPICT_v1_rel194.tar.gz

tar -zxvf DEPICT_v1_rel194.tar.gz

3 测试depict能否运行

cd DEPICT

./src/python/depict.py ./example/ldl_teslovich_nature2010.cfg

如果这一步没有报错，说明环境配置没有问题，可以开始分析自己的数据啦

4 准备一份新的cfg文件

拷贝yourtrait.cfg文件

cp ldl_teslovich_nature2010.cfg yourtrait.cfg

编辑yourtrait.cfg文件

vi yourtrait.cfg

vi进去后，yourtrait.cfg文件有几处需要修改

4.1 修改summary文件，这个summary文件即为你想分析的表型关联分析文件，在这里，假定叫做yourtrait.glm.linear，注意前面要加上绝对路径

gwas_summary_statistics_file: /your/path/to/summary/file/yourtrait.glm.linear

4.2 修改输出文件名，文件名按你喜欢修改，这里依旧假定命名为yourtrait

label_for_output_files: yourtrait

4.3 修改P值名称，如果yourtrait.glm.linear的P值用P表示的话

pvalue_col_name: P

4.4 修改染色体名称，如果yourtrait.glm.linear的染色体用Chr表示的话

chr_col_name: Chr

4.4 修改位置名称，如果yourtrait.glm.linear的位置用Pos表示的话

pos_col_name: Pos

4.5 添加PLINK软件的绝对路径，PLINK在你系统的哪个位置就写上哪里

plink_executable: /your/path/to/plink/plink

4.6 添加plink格式的genotype数据

genotype_data_plink_prefix: /your/path/to/genotype/yourtrait_genotype

修改好以上数据后，保存退出文件:wq

5 跑数据

./src/python/depict.py yourtrait.cfg

6 生成文件

生成的文件分别为loci.txt，geneprioritization.txt, genesetenrichment.txt , tissueenrichment.txt,其中，geneprioritization.txt, genesetenrichment.txt , tissueenrichment.txt即为我们感兴趣的基因优化，geneset富集分析，组织富集分析

7 画图

Rscript ./DEPICT/src/python/tissue_plot.R ./DEPICT/example/ldl_teslovich_nature2010_tissueenrichment.txt ldl_teslovich

posted @ 2019-09-19 11:23 橙子牛奶糖阅读(1770) 评论(4) 收藏举报

刷新页面返回顶部

橙子牛奶糖

简介：陈文燕，本科暨南大学，中科院博士。欢迎关注微信公众号“bio生物信息”，进群与众多生信同行一起讨论学术问题。私信不回，有问题请在文章下面评论。

DEPICT实现基因优化（gene prioritization）、gene set富集分析（geneset enrichment）、组织富集分析（tissue enrichment）

1 软件安装前请确保需要满足的系统环境

1.1 支持Mac OS X 或者 UNIX，不支持windows系统

1.2 Java SE 6（或者更高），没有安装Java请自行安装

1.3 需要PIP

1.4 需要Python依赖包

1.5 需要Pandas包（0.15.2或者以上版本）

1.6 PLINK(1.9 版本)

1.7 python(2.7 版本)

2 下载、安装

3 测试depict能否运行

4 准备一份新的cfg文件

4.1 修改summary文件，这个summary文件即为你想分析的表型关联分析文件，在这里，假定叫做yourtrait.glm.linear，注意前面要加上绝对路径

4.2 修改输出文件名，文件名按你喜欢修改，这里依旧假定命名为yourtrait

4.3 修改P值名称，如果yourtrait.glm.linear的P值用P表示的话

4.4 修改染色体名称，如果yourtrait.glm.linear的染色体用Chr表示的话

4.4 修改位置名称，如果yourtrait.glm.linear的位置用Pos表示的话

4.5 添加PLINK软件的绝对路径，PLINK在你系统的哪个位置就写上哪里

4.6 添加plink格式的genotype数据

5 跑数据

6 生成文件

7 画图

公告

橙子牛奶糖

简介：陈文燕，本科暨南大学，中科院博士。 欢迎关注微信公众号“bio生物信息”，进群与众多生信同行一起讨论学术问题。私信不回，有问题请在文章下面评论。

DEPICT实现基因优化（gene prioritization）、gene set富集分析（geneset enrichment）、组织富集分析（tissue enrichment）

1 软件安装前请确保需要满足的系统环境

1.1 支持Mac OS X 或者 UNIX， 不支持windows系统

1.2 Java SE 6（或者更高），没有安装Java请自行安装

1.3 需要PIP

1.4 需要Python依赖包

1.5 需要Pandas包 （0.15.2或者以上版本）

1.6 PLINK(1.9 版本)

1.7 python(2.7 版本)

2 下载、安装

3 测试depict能否运行

4 准备一份新的cfg文件

4.1 修改summary文件，这个summary文件即为你想分析的表型关联分析文件，在这里，假定叫做yourtrait.glm.linear，注意前面要加上绝对路径

4.2 修改输出文件名，文件名按你喜欢修改，这里依旧假定命名为yourtrait

4.3 修改P值名称，如果yourtrait.glm.linear的P值用P表示的话

4.4 修改染色体名称，如果yourtrait.glm.linear的染色体用Chr表示的话

4.4 修改位置名称，如果yourtrait.glm.linear的位置用Pos表示的话

4.5 添加PLINK软件的绝对路径，PLINK在你系统的哪个位置就写上哪里

4.6 添加plink格式的genotype数据

5 跑数据

6 生成文件

7 画图

公告

简介：陈文燕，本科暨南大学，中科院博士。欢迎关注微信公众号“bio生物信息”，进群与众多生信同行一起讨论学术问题。私信不回，有问题请在文章下面评论。

1.1 支持Mac OS X 或者 UNIX，不支持windows系统

1.5 需要Pandas包（0.15.2或者以上版本）