Pocketen

任务

以下是 PocketGen 论文描述的总结翻译：

🔹 输入

配体分子：
- 以三维结构（坐标和原子类型）提供。
蛋白质支架：
- 除去口袋区域的蛋白质的其余部分。
- 同样表示为三维点云。

🔹 模型架构

1. 等变双层图变换器

目标：对完整原子结构进行编码和更新。
结构：
- 建模 残基/配体级别 和 原子级别 的相互作用。
- 每个残基/配体是一个具有特征的原子块，特征表示为 (H_i \in \mathbb{R}^{n_i \times d})，坐标表示为 (X_i \in \mathbb{R}^{n_i \times 3})。
关键组件：
- 双层注意力模块：
  - 原子级别注意力 (\alpha_{ij}) 用于块内/块间原子相互作用。
  - 残基/配体级别注意力 (\beta_{ij}) 用于全局块相互作用。
- 等变前馈网络（FFN）：
  - 使用几何中心更新原子特征和坐标。
更新：
- 仅迭代更新 口袋残基 和 配体原子 的坐标和特征。

2. 序列优化模块

目标：生成口袋残基的氨基酸类型。
机制：
- 将 结构适配器 融入预训练的 蛋白质语言模型（pLM）（例如 ESM-2）。
- 适配器是结构特征和序列特征之间的轻量级交叉注意力模块。
- 仅对适配器进行训练，pLM 保持冻结。
- 确保 序列-结构一致性。

🔹 输出

口袋残基序列：通过 pLM 适配器预测的氨基酸类型。
完整原子口袋结构：优化后的背骨和侧链原子坐标。
更新的配体位姿（可选）：对配体坐标进行小幅调整以匹配口袋。

🔹 训练目标

条件生成：
[
P(\text{口袋序列和结构} \mid \text{配体 + 支架})
]
使用几何损失、氨基酸恢复和结构亲和力指标进行优化。

🔹 评估指标

亲和力：Vina 分数、MM-GBSA、GlideSP。
结构有效性：RMSD、scTM、pLDDT。
序列准确性：氨基酸恢复率（AAR）。
成功率：生成的口袋在亲和力方面超越参考的比例。

如果您需要图表风格的总结（例如示意图）或实现细节，请告诉我。

数据集的描述

以下是 PocketGen 论文中使用的两个主要基准数据集的总结翻译：

🔹 使用的数据集

1. CrossDocked 数据集

描述：通过 交叉对接 生成的蛋白质-配体对，即将配体对接到非天然蛋白质构象中。
分割方式：基于 30% 序列同一性 阈值：
- 创建 训练集、验证集 和 测试集，其序列同一性重叠不超过 30%。
用途：
- 用于评估生成口袋的 结合亲和力、序列恢复 和 结构有效性。
口袋定义：
- 与任何配体原子距离在 3.5 Å 以内的残基（平均每个口袋 ≈ 8 个残基）。
- 更大的口袋评估还使用 4.5 Å 和 5.5 Å 阈值。

❗ 论文 未明确说明 训练集中确切的 蛋白质数量 或 配体数量，但 CrossDocked 总共包含 超过 22,000 个蛋白质-配体复合物。

2. Binding MOAD 数据集（万能数据库）

描述：从晶体学数据中整理出的实验确定的 蛋白质-配体复合物 数据库。
分割方式：
- 基于 酶委员会（EC）编号，以确保训练集/测试集之间的功能多样性。
用途：
- 用于 预训练 和 泛化测试（例如，类药物配体：皮质醇、阿哌沙班、芬太尼）。
评估：
- 同样使用 3.5/4.5/5.5 Å 阈值定义口袋区域。

同样，未给出确切数量，但 Binding MOAD 包含 约 9,000+ 个独特的蛋白质-配体复合物。

🔹 配体-蛋白质关联

每个 蛋白质复合物 包含 一个配体。
模型 以该配体 和周围蛋白质支架为条件，为每个蛋白质-配体对生成一个口袋。
在评估中，每个配体-蛋白质对生成 100 个口袋，以评估多样性和亲和力分布。

总结表

数据集	来源类型	训练/测试集划分依据	复合物数量	每个蛋白质的配体数量	平均口袋大小
CrossDocked	对接复合物	30% 序列同一性	约 22,000	1	约 8 个残基
Binding MOAD	晶体结构	EC 编号（功能）	约 9,000	1	约 8-15 个残基

如果您需要这些数据集的预处理流程或示例数据格式，请告诉我。

用到的蛋白质

在 PocketGen 中使用的两个数据集（CrossDocked 和 Binding MOAD）确实提供了或基于实际的蛋白质 PDB 结构，这意味着每个蛋白质-配体复合物对应一个特定的 PDB 文件：

🔹 1. CrossDocked 数据集

✅ 源自真实的 PDB 条目。
🚀 CrossDocked 是基于 跨对接模拟 构建的，这些模拟基于来自 Pocketome 和其他来源的晶体结构。
🧬 对于每个配体，将其对接到多个 非天然蛋白质构象（即多个原本未与该配体结合的 PDB 文件）中。
🔗 是的，CrossDocked 中的每个蛋白质-配体对都与一个 PDB 结构 相关联（从中提取背骨和口袋坐标）。

注意：这些 PDB 文件可能不是该配体的天然结合物，但蛋白质结构来自真实的 PDB 文件。

🔹 2. Binding MOAD（万能数据库）

✅ 100% 基于 蛋白质数据银行（PDB） 中的 实验结构 构建。
🧪 每个蛋白质-配体复合物对应一个特定的 PDB ID。
📦 该数据集包括 共结晶配体，因此配体位姿已通过实验验证。

例如，论文中提到使用了：

皮质醇 对应 PDB: 8CBY
阿哌沙班 对应 PDB: 2P16
芬太尼 对应 PDB: 7V7

这些是来自蛋白质数据银行的 实际 PDB 结构。

✅ 结论：

是的，用于 PocketGen 训练和评估的每个复合物都有一个对应的 PDB 结构。 这些 PDB 结构要么是：

天然配体结合物（在 Binding MOAD 中），要么是
来自已知蛋白质的 跨对接结构（在 CrossDocked 中）。

如果您需要帮助检索或可视化这些数据集中的 PDB 文件，请告诉我。

任务

以下是关于 PocketGen 任务的总结翻译：

🔹 任务目标

PocketGen 预测配体结合口袋的完整原子 3D 结构和残基序列，其条件基于：

配体结构
蛋白质支架（即除去口袋区域的蛋白质其余部分）

🔹 掩蔽策略

🟧 输入时掩蔽口袋区域

口袋残基（例如，距离配体原子 3.5 Å 以内的残基）：
- 从输入蛋白质支架中移除
- 隐藏其 坐标和残基类型
模型的任务是 生成缺失的口袋。

形式上，PocketGen 学习分布：

\[P(\text{口袋序列和结构} \mid \text{配体}, \text{支架}) \]

其中：

配体和 非口袋残基 是已知的
口袋（序列 + 结构） 是生成目标

🔹 如何利用相互作用

等变双层图变换器：
- 构建 配体 + 支架的几何图。
- 预测原子级别和残基级别的特征，并根据与配体和支架的相互作用更新口袋原子的坐标。
序列优化模块：
- 在 冻结的预训练蛋白质语言模型（例如 ESM-2）中添加 结构感知适配器。
- 使用结构嵌入的 交叉注意力 学习为口袋位置分配氨基酸。

🔹 迭代过程

PocketGen 执行 迭代优化：
1. 使用虚拟位置初始化口袋原子（例如，最大原子模板）。
2. 使用双层图变换器细化坐标。
3. 使用结构-序列交叉注意力预测氨基酸类型。
4. 如有需要，轻微更新配体构象。
5. 重复直到收敛。

🔹 总结：掩蔽 + 条件预测

| 方面 | 描述 |
| ---------------- |----- ---------------------------------------------------------------------------------------- |
| 输入掩蔽 | 掏口的序列和坐标被掩蔽。 |
| 条件基于 | 配体 + 蛋白质支架（非口袋残基）。 |
| 预测目标 | 掏口的 残基类型 和 原子坐标。 |
| 引导方式 | 配体-残基相互作用，包括原子级别和残基级别。 |
| 训练 | 在具有真实 PDB 掏口结构的数据集上端到端训练（例如，Binding MOAD、CrossDocked）。 |

如果您需要伪代码或数据掩蔽 + 推理管道的示意图，请告诉我。

posted @ 2025-05-23 13:41 GraphL 阅读(82) 评论(0) 收藏举报

刷新页面返回顶部

csjywu01