代码改变世界

enzyme design 整体流程及感想

2018-08-13 23:43  丨o聽乄雨o丨  阅读(1802)  评论(5编辑  收藏  举报

想起什么来写什么吧。

整体流程(以Ceas2, TPP, G3P为例):

准备蛋白即配体参数文件(pdb文件需要有header,header的顺序符合cst block的顺序,且residue1和residue2的顺序也必须符合cst block);

设置CST文件;

准备protocol和flag文件;

运行enzyme_design;

结果处理。

CST文件准备:

要想准备好cst文件,需要的先决条件有两个,一个是对CST文件格式的了解,一个是对rosetta参数文件(.params)的了解。

首先,CST格式可见另外一篇博客https://www.cnblogs.com/wq242424/p/9463703.html

其次,.params文件格式里面,主要注意我们感兴趣的原子,比如HIS的Nhis,确定A1,A2和A3,Nhis作为A1,A2和A3则由.params文件里对应ICOOR行的parent原子决定,A2是A1的parent,A3是A2的parent。如HIS里Nhis对应的原子及A1是ND1,A2为A1的parent为CG,A3为A2的parent为CB,.params文件格式参见.param文件格式,标准氨基酸的.params文件存放在$ROSETTAHOME/main/database/chemical/residue_type_sets/下。

最后,设置好CST文件后,一定要用 CstfileToTheozymePDB.linuxgccrelease 对CST进行验证,因为有时候随着标准氨基酸.params文件的更新,不同原子的定义可能会有改变,命令用法如下:

CstfileToTheozymePDB.linuxgccrelease -extra_res_fa G3P.params -match:geometric_constraint_file G3P.cst

命令会产生出 PDB_Model_G3P.cst_1.pdb 文件,删除pdb文件里的CONNECT行后,使用 pymol PDB_Model_G3P.cst_1.pdb 命令查看motif是否符合设定。

 下面列举我遇到过的几种氨基酸的原子信息:

侧链信息:

 骨架信息:

上述是列举的官方文档种的残基原子信息。

下面是自己应用过程种用到的:

Ntrp,和Nhis,

OH ,(注意逗号前有空格)

Narg,

 

结果处理:

对设计出来的众多结果进行筛选,筛选规则的原文如下:

One approach currently used in the Baker group is the following: first, a subset of the 4-5 most important criteria is picked, i.e. total_score, ligand binding energy/SR_interface_E_1_2, total constraint score of the catalytic residues (all_cst), packstat, and buried unsatisfied polars of the ligand. Then, for each of these criteria, a minimum value is decided, which all designs considered for expression have to exceed ( i.e. total_score has to be lower than the corresponding Rosetta score of the undesigned scaffold, ligand_binding energy has to be < -10.0, and all_cst has to be < 1.0 ). 

大体过程是:

首先,确定4-5个重要的对设计重要的特征,如total_score, ligand binding energy/SR_interface_E_1_2, total constraint score of the catalytic residues (all_cst), packstat, buried unsatisfied polars of the ligand等;

然后,确定每一个特征标准或者称为临界值,例如ligand_binding energy has to be < -10.0,又如 all_cst has to be < 1.0等;

最后,使用 DesignSelect.pl 脚本筛选出符合标准的设计。

DesignSelect.pl脚本的用法:

首先,需要准备一个标准或者临界值文件,如下:

req all_cst value < 1.0
req SR_4_interf_E_1_2 value < -10.0
output sortmin total_score

然后,使用命令:

DesignSelect.pl -d design.out -c <requirements file> -tag_column last > filtered_designs.out

对结果处理,得到的文件filtered_designs.out里包含符合我们条件的entry。

故障报错:

1. ERROR: unknown atom_name: TPP   C

准备好flag文件,xml文件等后,运行 rosetta_scripts.linuxgccrelease @flags :

出现错误:ERROR: unknown atom_name: TPP   C

没有排查出错误出处,由低版本(2016)换高版本rosetta_scripts(2018)运行后,问题解决。