Pocketen

任务

以下是 PocketGen 论文描述的总结翻译:

🔹 输入

  1. 配体分子

    • 以三维结构(坐标和原子类型)提供。
  2. 蛋白质支架

    • 除去口袋区域的蛋白质的其余部分。
    • 同样表示为三维点云。

🔹 模型架构

1. 等变双层图变换器

  • 目标:对完整原子结构进行编码和更新。
  • 结构
    • 建模 残基/配体级别原子级别 的相互作用。
    • 每个残基/配体是一个具有特征的原子块,特征表示为 (H_i \in \mathbb{R}^{n_i \times d}),坐标表示为 (X_i \in \mathbb{R}^{n_i \times 3})。
  • 关键组件
    • 双层注意力模块
      • 原子级别注意力 (\alpha_{ij}) 用于块内/块间原子相互作用。
      • 残基/配体级别注意力 (\beta_{ij}) 用于全局块相互作用。
    • 等变前馈网络(FFN)
      • 使用几何中心更新原子特征和坐标。
  • 更新
    • 仅迭代更新 口袋残基配体原子 的坐标和特征。

2. 序列优化模块

  • 目标:生成口袋残基的氨基酸类型。
  • 机制
    • 结构适配器 融入预训练的 蛋白质语言模型(pLM)(例如 ESM-2)。
    • 适配器是结构特征和序列特征之间的轻量级交叉注意力模块。
    • 仅对适配器进行训练,pLM 保持冻结。
    • 确保 序列-结构一致性

🔹 输出

  1. 口袋残基序列:通过 pLM 适配器预测的氨基酸类型。
  2. 完整原子口袋结构:优化后的背骨和侧链原子坐标。
  3. 更新的配体位姿(可选):对配体坐标进行小幅调整以匹配口袋。

🔹 训练目标

  • 条件生成
    [
    P(\text{口袋序列和结构} \mid \text{配体 + 支架})
    ]
  • 使用几何损失、氨基酸恢复和结构亲和力指标进行优化。

🔹 评估指标

  • 亲和力:Vina 分数、MM-GBSA、GlideSP。
  • 结构有效性:RMSD、scTM、pLDDT。
  • 序列准确性:氨基酸恢复率(AAR)。
  • 成功率:生成的口袋在亲和力方面超越参考的比例。

如果您需要图表风格的总结(例如示意图)或实现细节,请告诉我。

数据集的描述

以下是 PocketGen 论文中使用的两个主要基准数据集的总结翻译:

🔹 使用的数据集

1. CrossDocked 数据集

  • 描述:通过 交叉对接 生成的蛋白质-配体对,即将配体对接到非天然蛋白质构象中。

  • 分割方式:基于 30% 序列同一性 阈值:

    • 创建 训练集验证集测试集,其序列同一性重叠不超过 30%。
  • 用途

    • 用于评估生成口袋的 结合亲和力序列恢复结构有效性
  • 口袋定义

    • 与任何配体原子距离在 3.5 Å 以内的残基(平均每个口袋 ≈ 8 个残基)。
    • 更大的口袋评估还使用 4.5 Å5.5 Å 阈值。

❗ 论文 未明确说明 训练集中确切的 蛋白质数量配体数量,但 CrossDocked 总共包含 超过 22,000 个蛋白质-配体复合物


2. Binding MOAD 数据集(万能数据库)

  • 描述:从晶体学数据中整理出的实验确定的 蛋白质-配体复合物 数据库。

  • 分割方式

    • 基于 酶委员会(EC)编号,以确保训练集/测试集之间的功能多样性。
  • 用途

    • 用于 预训练泛化测试(例如,类药物配体:皮质醇、阿哌沙班、芬太尼)。
  • 评估

    • 同样使用 3.5/4.5/5.5 Å 阈值定义口袋区域。

同样,未给出确切数量,但 Binding MOAD 包含 约 9,000+ 个独特的蛋白质-配体复合物


🔹 配体-蛋白质关联

  • 每个 蛋白质复合物 包含 一个配体
  • 模型 以该配体 和周围蛋白质支架为条件,为每个蛋白质-配体对生成一个口袋
  • 在评估中,每个配体-蛋白质对生成 100 个口袋,以评估多样性和亲和力分布。

总结表

数据集 来源类型 训练/测试集划分依据 复合物数量 每个蛋白质的配体数量 平均口袋大小
CrossDocked 对接复合物 30% 序列同一性 约 22,000 1 约 8 个残基
Binding MOAD 晶体结构 EC 编号(功能) 约 9,000 1 约 8-15 个残基

如果您需要这些数据集的预处理流程或示例数据格式,请告诉我。

用到的蛋白质

PocketGen 中使用的两个数据集(CrossDocked 和 Binding MOAD)确实提供了或基于实际的蛋白质 PDB 结构,这意味着每个蛋白质-配体复合物对应一个特定的 PDB 文件:

🔹 1. CrossDocked 数据集

  • 源自真实的 PDB 条目
  • 🚀 CrossDocked 是基于 跨对接模拟 构建的,这些模拟基于来自 Pocketome 和其他来源的晶体结构。
  • 🧬 对于每个配体,将其对接到多个 非天然蛋白质构象(即多个原本未与该配体结合的 PDB 文件)中。
  • 🔗 是的,CrossDocked 中的每个蛋白质-配体对都与一个 PDB 结构 相关联(从中提取背骨和口袋坐标)。

注意:这些 PDB 文件可能不是该配体的天然结合物,但蛋白质结构来自真实的 PDB 文件。


🔹 2. Binding MOAD(万能数据库)

  • ✅ 100% 基于 蛋白质数据银行(PDB) 中的 实验结构 构建。
  • 🧪 每个蛋白质-配体复合物对应一个特定的 PDB ID
  • 📦 该数据集包括 共结晶配体,因此配体位姿已通过实验验证。

例如,论文中提到使用了:

  • 皮质醇 对应 PDB: 8CBY
  • 阿哌沙班 对应 PDB: 2P16
  • 芬太尼 对应 PDB: 7V7

这些是来自蛋白质数据银行的 实际 PDB 结构


✅ 结论:

是的,用于 PocketGen 训练和评估的每个复合物都有一个对应的 PDB 结构。 这些 PDB 结构要么是:

  • 天然配体结合物(在 Binding MOAD 中),要么是
  • 来自已知蛋白质的 跨对接结构(在 CrossDocked 中)。

如果您需要帮助检索或可视化这些数据集中的 PDB 文件,请告诉我。

任务

以下是关于 PocketGen 任务的总结翻译:

🔹 任务目标

PocketGen 预测配体结合口袋的完整原子 3D 结构和残基序列,其条件基于:

  • 配体结构
  • 蛋白质支架(即除去口袋区域的蛋白质其余部分)

🔹 掩蔽策略

🟧 输入时掩蔽口袋区域

  • 口袋残基(例如,距离配体原子 3.5 Å 以内的残基):

    • 从输入蛋白质支架中 移除
    • 隐藏其 坐标和残基类型
  • 模型的任务是 生成缺失的口袋

形式上,PocketGen 学习分布:

\[P(\text{口袋序列和结构} \mid \text{配体}, \text{支架}) \]

其中:

  • 配体非口袋残基 是已知的
  • 口袋(序列 + 结构) 是生成目标

🔹 如何利用相互作用

  1. 等变双层图变换器

    • 构建 配体 + 支架的几何图
    • 预测原子级别和残基级别的特征,并根据与配体和支架的相互作用更新口袋原子的 坐标
  2. 序列优化模块

    • 冻结的预训练蛋白质语言模型(例如 ESM-2)中添加 结构感知适配器
    • 使用结构嵌入的 交叉注意力 学习为口袋位置分配氨基酸。

🔹 迭代过程

  • PocketGen 执行 迭代优化

    1. 使用虚拟位置初始化口袋原子(例如,最大原子模板)。
    2. 使用双层图变换器细化坐标。
    3. 使用结构-序列交叉注意力预测氨基酸类型。
    4. 如有需要,轻微更新配体构象。
    5. 重复直到收敛。

🔹 总结:掩蔽 + 条件预测

| 方面 | 描述 |
| ---------------- |----- ---------------------------------------------------------------------------------------- |
| 输入掩蔽 | 掏口的序列和坐标被 掩蔽。 |
| 条件基于 | 配体 + 蛋白质支架(非口袋残基)。 |
| 预测目标 | 掏口的 残基类型原子坐标。 |
| 引导方式 | 配体-残基相互作用,包括原子级别和残基级别。 |
| 训练 | 在具有真实 PDB 掏口结构的数据集上端到端训练(例如,Binding MOAD、CrossDocked)。 |


如果您需要伪代码或数据掩蔽 + 推理管道的示意图,请告诉我。

posted @ 2025-05-23 13:41  GraphL  阅读(50)  评论(0)    收藏  举报