Pocketen
任务
以下是 PocketGen 论文描述的总结翻译:
🔹 输入
- 
配体分子: - 以三维结构(坐标和原子类型)提供。
 
- 
蛋白质支架: - 除去口袋区域的蛋白质的其余部分。
- 同样表示为三维点云。
 
🔹 模型架构
1. 等变双层图变换器
- 目标:对完整原子结构进行编码和更新。
- 结构:
- 建模 残基/配体级别 和 原子级别 的相互作用。
- 每个残基/配体是一个具有特征的原子块,特征表示为 (H_i \in \mathbb{R}^{n_i \times d}),坐标表示为 (X_i \in \mathbb{R}^{n_i \times 3})。
 
- 关键组件:
- 双层注意力模块:
- 原子级别注意力 (\alpha_{ij}) 用于块内/块间原子相互作用。
- 残基/配体级别注意力 (\beta_{ij}) 用于全局块相互作用。
 
- 等变前馈网络(FFN):
- 使用几何中心更新原子特征和坐标。
 
 
- 双层注意力模块:
- 更新:
- 仅迭代更新 口袋残基 和 配体原子 的坐标和特征。
 
2. 序列优化模块
- 目标:生成口袋残基的氨基酸类型。
- 机制:
- 将 结构适配器 融入预训练的 蛋白质语言模型(pLM)(例如 ESM-2)。
- 适配器是结构特征和序列特征之间的轻量级交叉注意力模块。
- 仅对适配器进行训练,pLM 保持冻结。
- 确保 序列-结构一致性。
 
🔹 输出
- 口袋残基序列:通过 pLM 适配器预测的氨基酸类型。
- 完整原子口袋结构:优化后的背骨和侧链原子坐标。
- 更新的配体位姿(可选):对配体坐标进行小幅调整以匹配口袋。
🔹 训练目标
- 条件生成:
 [
 P(\text{口袋序列和结构} \mid \text{配体 + 支架})
 ]
- 使用几何损失、氨基酸恢复和结构亲和力指标进行优化。
🔹 评估指标
- 亲和力:Vina 分数、MM-GBSA、GlideSP。
- 结构有效性:RMSD、scTM、pLDDT。
- 序列准确性:氨基酸恢复率(AAR)。
- 成功率:生成的口袋在亲和力方面超越参考的比例。
如果您需要图表风格的总结(例如示意图)或实现细节,请告诉我。
数据集的描述
以下是 PocketGen 论文中使用的两个主要基准数据集的总结翻译:
🔹 使用的数据集
1. CrossDocked 数据集
- 
描述:通过 交叉对接 生成的蛋白质-配体对,即将配体对接到非天然蛋白质构象中。 
- 
分割方式:基于 30% 序列同一性 阈值: - 创建 训练集、验证集 和 测试集,其序列同一性重叠不超过 30%。
 
- 
用途: - 用于评估生成口袋的 结合亲和力、序列恢复 和 结构有效性。
 
- 
口袋定义: - 与任何配体原子距离在 3.5 Å 以内的残基(平均每个口袋 ≈ 8 个残基)。
- 更大的口袋评估还使用 4.5 Å 和 5.5 Å 阈值。
 
❗ 论文 未明确说明 训练集中确切的 蛋白质数量 或 配体数量,但 CrossDocked 总共包含 超过 22,000 个蛋白质-配体复合物。
2. Binding MOAD 数据集(万能数据库)
- 
描述:从晶体学数据中整理出的实验确定的 蛋白质-配体复合物 数据库。 
- 
分割方式: - 基于 酶委员会(EC)编号,以确保训练集/测试集之间的功能多样性。
 
- 
用途: - 用于 预训练 和 泛化测试(例如,类药物配体:皮质醇、阿哌沙班、芬太尼)。
 
- 
评估: - 同样使用 3.5/4.5/5.5 Å 阈值定义口袋区域。
 
同样,未给出确切数量,但 Binding MOAD 包含 约 9,000+ 个独特的蛋白质-配体复合物。
🔹 配体-蛋白质关联
- 每个 蛋白质复合物 包含 一个配体。
- 模型 以该配体 和周围蛋白质支架为条件,为每个蛋白质-配体对生成一个口袋。
- 在评估中,每个配体-蛋白质对生成 100 个口袋,以评估多样性和亲和力分布。
总结表
| 数据集 | 来源类型 | 训练/测试集划分依据 | 复合物数量 | 每个蛋白质的配体数量 | 平均口袋大小 | 
|---|---|---|---|---|---|
| CrossDocked | 对接复合物 | 30% 序列同一性 | 约 22,000 | 1 | 约 8 个残基 | 
| Binding MOAD | 晶体结构 | EC 编号(功能) | 约 9,000 | 1 | 约 8-15 个残基 | 
如果您需要这些数据集的预处理流程或示例数据格式,请告诉我。
用到的蛋白质
在 PocketGen 中使用的两个数据集(CrossDocked 和 Binding MOAD)确实提供了或基于实际的蛋白质 PDB 结构,这意味着每个蛋白质-配体复合物对应一个特定的 PDB 文件:
🔹 1. CrossDocked 数据集
- ✅ 源自真实的 PDB 条目。
- 🚀 CrossDocked 是基于 跨对接模拟 构建的,这些模拟基于来自 Pocketome 和其他来源的晶体结构。
- 🧬 对于每个配体,将其对接到多个 非天然蛋白质构象(即多个原本未与该配体结合的 PDB 文件)中。
- 🔗 是的,CrossDocked 中的每个蛋白质-配体对都与一个 PDB 结构 相关联(从中提取背骨和口袋坐标)。
注意:这些 PDB 文件可能不是该配体的天然结合物,但蛋白质结构来自真实的 PDB 文件。
🔹 2. Binding MOAD(万能数据库)
- ✅ 100% 基于 蛋白质数据银行(PDB) 中的 实验结构 构建。
- 🧪 每个蛋白质-配体复合物对应一个特定的 PDB ID。
- 📦 该数据集包括 共结晶配体,因此配体位姿已通过实验验证。
例如,论文中提到使用了:
- 皮质醇 对应 PDB: 8CBY
- 阿哌沙班 对应 PDB: 2P16
- 芬太尼 对应 PDB: 7V7
这些是来自蛋白质数据银行的 实际 PDB 结构。
✅ 结论:
是的,用于 PocketGen 训练和评估的每个复合物都有一个对应的 PDB 结构。 这些 PDB 结构要么是:
- 天然配体结合物(在 Binding MOAD 中),要么是
- 来自已知蛋白质的 跨对接结构(在 CrossDocked 中)。
如果您需要帮助检索或可视化这些数据集中的 PDB 文件,请告诉我。
任务
以下是关于 PocketGen 任务的总结翻译:
🔹 任务目标
PocketGen 预测配体结合口袋的完整原子 3D 结构和残基序列,其条件基于:
- 配体结构
- 蛋白质支架(即除去口袋区域的蛋白质其余部分)
🔹 掩蔽策略
🟧 输入时掩蔽口袋区域
- 
口袋残基(例如,距离配体原子 3.5 Å 以内的残基): - 从输入蛋白质支架中 移除
- 隐藏其 坐标和残基类型
 
- 
模型的任务是 生成缺失的口袋。 
形式上,PocketGen 学习分布:
其中:
- 配体 和 非口袋残基 是已知的
- 口袋(序列 + 结构) 是生成目标
🔹 如何利用相互作用
- 
等变双层图变换器: - 构建 配体 + 支架的几何图。
- 预测原子级别和残基级别的特征,并根据与配体和支架的相互作用更新口袋原子的 坐标。
 
- 
序列优化模块: - 在 冻结的预训练蛋白质语言模型(例如 ESM-2)中添加 结构感知适配器。
- 使用结构嵌入的 交叉注意力 学习为口袋位置分配氨基酸。
 
🔹 迭代过程
- 
PocketGen 执行 迭代优化: - 使用虚拟位置初始化口袋原子(例如,最大原子模板)。
- 使用双层图变换器细化坐标。
- 使用结构-序列交叉注意力预测氨基酸类型。
- 如有需要,轻微更新配体构象。
- 重复直到收敛。
 
🔹 总结:掩蔽 + 条件预测
| 方面                | 描述                                                                                   |
| ---------------- |----- ---------------------------------------------------------------------------------------- |
| 输入掩蔽     | 掏口的序列和坐标被 掩蔽。                                           |
| 条件基于    | 配体 + 蛋白质支架(非口袋残基)。                                          |
| 预测目标 | 掏口的 残基类型 和 原子坐标。                                        |
| 引导方式     | 配体-残基相互作用,包括原子级别和残基级别。                            |
| 训练          | 在具有真实 PDB 掏口结构的数据集上端到端训练(例如,Binding MOAD、CrossDocked)。 |
如果您需要伪代码或数据掩蔽 + 推理管道的示意图,请告诉我。
 
                    
                
 
                
            
         浙公网安备 33010602011771号
浙公网安备 33010602011771号