MAKER安装及使用

MAKER是一个整合多个基因注释软件的强大pipeline。如果对基因组注释流程不熟悉,建议先补充相应的内容再开始使用MAKER。本文主要摘录自MAKER官网

==================================

#先创建一个maker环境并激活

conda create -n maker3
conda activate maker3

PS: 部分依赖库安装在此环境下,使用maker时记得激活maker3环境后方可正常使用。

==================================

一、安装依赖包

更多详情参见Prerequisites

1.依赖perl模块如下(perl版本需要5.8.0+,可使用perl -v查看)。

#可选以下两种方式依次安装perl模块。

cpan -i <module_name>
sudo cpanm <module_name> 

#maker3需要安装的perl模块如下

*DBI   
*DBD::SQLite    
*forks    
*forks::shared        
*File::Which    
*Perl::Unsafe::Signals        
*Bit::Vector    
*Inline::C         
*IO::All     
*IO::Prompt     
*PerlIO::gzip     

#使用perldoc perllocal查看已安装perl模块

2.BioPerl 1.6 or higher(http://www.bioperl.org)

#建议git clone下载,并配置环境变量。

3.WuBlast or NCBI-BLAST

#建议git clone下载,本地化ncbi的blast+

4.SNAP(http://korflab.ucdavis.edu/software.html)

#尝试手动安装发现编译出错,建议conda安装 
conda install -c bioconda snap 

5.RepeatMasker(http://www.repeatmasker.org)

#RepeatMasker同样依赖包很多,安装参见其它教程。

6.Exonerate 2.2(http://www.ebi.ac.uk/~guy/exonerate)

#建议conda安装
conda install -c bioconda exonerate

 

二、安装maker

PS: 下载需登记,安装包见官网maker-download,解压后按如下步骤安装配置

cd /home/liuxin/maker/src
perl Build.PL
./Build install
export PATH=/usr/local/maker/bin:$PATH

检测是否安装成功,若成功安装可以看到相关的帮助信息

maker -h

 

三、测试demo(简单注释)

#利用包内data文件数据集,准备example1

cd /home/liuxin/maker/data
mkdir example1
mv cpp* example1

#为maker配置细节参数文件(.ctl)以控制注释流程

cd example1
maker -CTL

# ls -1简要看一下控制文件类型

maker_exe.ctl - 包含可执行文件路径
maker_bopts.ctl - 包含用于BLAST以及Exonerate过滤的统计信息
maker_opts.ctl - 包含基因组、EST、蛋白输入文件等路径的设置
maker_evm.ctl - maker3会生成该控制文件,应该是和整合相关的

#具体可使用nano命令查看

nano maker_opts.ctl

#替换maker_opts.ctl参数如下,不允许=附近存在空格

genome=dpp_contig.fasta
est=dpp_transcripts.fasta
protein=dpp_proteins.fasta
est2genome=1

#运行MAKER,两种方式

#直接运行
maker
#使用MPI并行运算,指定64个线程,大规模基因组运算效率更高,相应的需要先依据官方手册安装MPICH2
mpiexec -n 64 maker

#Tips

PS: 此处运行报错ERROR: Could not determine if RepBase is installed
Solutions: 将maker_opts.ctl文件中的model_org设为空选项,不会检查RepBase有没有安装.

 

四、输出结果

主要的结果contig-dpp-500-500.gff文件在生成的datastore文件夹下。可使用Apollo和GBrowse查看检查。其余过程文件很多,相关说明参考官网。

 

五、结合从头预测训练基因模型进行注释(高级注释)

(一)SNAP训练基因模型进行注释。

SNAP的训练较为简单,反复迭代多次即可。

1、从简单注释开始

cd example2
maker -CTL
nano maker_opts.ctl
#修改如下参数,model_org设为空
genome=pyu_contig.fasta
est=pyu_est.fasta
protein=pyu_protein.fasta
est2genome=1
#开始运行
maker
#得到your_gff_result.gff文件用于第一轮训练

2、SNAP第一轮(转换简单注释集产生HMM文件,用于模型训练注释)

mkdir snap
cd snap
gff3_merge -d ../dpp_contig.maker.output/dpp_contig_master_datastore_index.log
maker2zff dpp_contig.all.gff

#生成genome.ann/genome.dna文件用于训练SNAP

fathom -categorize 1000 genome.ann genome.dna
fathom -export 1000 -plus uni.ann uni.dna
forge export.ann export.dna
hmm-assembler.pl pyu . > pyu.hmm
cd ..

#该轮最终的训练参数文件是pyu.hmm

#指定新的HMM文件运行MAKER
nano maker_opts.ctl
#设置训练模型,关闭est2genome参数,启用模型训练基因
snaphmm=snap/pyu.hmm
est2genome=0
#设置完成开始运行
maker

#得到新的gff文件,使用gff3_merge归并的到新的gff,用于第二轮训练

3、SNAP第二轮(再次训练SNAP,再次运行MAKER)

mkdir snap2
cd snap2
gff3_merge -d ../dpp_contig.maker.output/dpp_contig_master_datastore_index.log
maker2zff dpp_contig.all.gff
fathom -categorize 1000 genome.ann genome.dna
fathom -export 1000 -plus uni.ann uni.dna
forge export.ann export.dna
hmm-assembler.pl pyu . > pyu.hmm
cd ..
nano maker_opts.ctl
#更改为新的配置文件
snaphmm=snap2/pyu.hmm
#运行maker
maker

提取最终的gff文件到当前目录

gff3_merge -d dpp_contig.maker.output/dpp_contig_master_datastore_index.log

最后可以通过Apollo、geneious等软件检查gff文件注释效果。

提取用于注释gff文件的蛋白以及转录本序列

fasta_merge -d dpp_contig.maker.output/dpp_contig_master_datastore_index.log

(二)AUGUSTUS训练基因模型进行注释

待补充。建议参考https://www.jianshu.com/p/679bd6bb0ea4


=================================

高级参数配置(如何配置maker_opts.ctl文件)参见http://gmod.org/wiki/MAKER_Tutorial#Configuration_Files_in_Detail(Advanced MAKER Configuration, Re-annotation Options, and Improving Annotation Quality部分)

posted @ 2022-09-06 22:27  pd_liu  阅读(5706)  评论(0)    收藏  举报