S3F

好的,您想了解的是关于 S3F框架流程 的说明,以及是否需要一个 S2F与S3F流程的对比图 。以下是这段话的翻译:

以下是对 S3F框架流程 的结构化说明:

输入
每个样本包括:

  1. 蛋白质序列

    [
    S = [s_1, s_2, ..., s_{n_r}], \quad s_i \in {1, ..., 20}
    ]

    (氨基酸残基类型)

  2. 蛋白质结构

    [
    X = [x_1, x_2, ..., x_{n_a}] \in \mathbb{R}^{n_a \times 3}
    ]

    (α碳原子的坐标)

  3. 仅针对S3F的蛋白质表面

    • 表示为点云:

      [
      \tilde{X} = [\tilde{x}1, ..., \tilde{x}] \in \mathbb{R}^{n_s \times 3}
      ]

    • 每个点具有几何描述符:曲率和热核签名

多尺度流程

步骤1:序列编码(S2F和S3F共享)

  • 使用 ESM-2-650M ,这是一个预训练的蛋白质语言模型
  • 输入:S \ T(遮蔽15%的残基)
  • 输出:所有残基的令牌嵌入
  • 这些嵌入作为图编码器的初始节点特征

步骤2:结构图编码(S2F)

  • 在Cα原子上构建半径图(节点 = 残基;如果距离 < 10Å则存在边)

  • 使用几何向量感知器(GVP)对每个节点的标量和向量特征进行编码:

    • 标量:ESM的初始残基嵌入
    • 向量:初始化为零
  • 消息传递:

    [
    h_i^{(l+1)} = \text{GVP}(h_i^{(l)} + \text{从邻居聚合})
    ]

  • 重复5层GVP

步骤3:表面图编码(仅限S3F)

  • 使用 dMaSIF 生成表面点云

  • 对于每个表面点 (\tilde{x}_i) :

    • 找到3个最近的残基 (j \in \mathcal{N}_{\text{surf-res}}(i))

    • 结合:

      • 残基的ESM嵌入
      • 距离 (|\tilde{x}_i - x_j|)
      • 局部几何结构 (f_i) (曲率、热核)

    [
    \tilde{h}_i^{(0)} = \text{MLP}\left(f_i, \frac{1}{3} \sum_j \text{MLP}(h_j^{(0)}, |\tilde{x}_i - x_j|)\right)
    ]

  • 在表面构建kNN图(k = 16),使用GVP层(同上)

步骤4:表面到残基聚合(仅限S3F)

  • 对于每个残基i:

    • 找到其20个最近的表面点
    • 平均它们的特征:

    [
    h_i^{(L)} \leftarrow h_i^{(L)} + \frac{1}{20} \sum_{j \in \mathcal{N}_{\text{res-surf}}(i)} \tilde{h}_j^{(L)}
    ]

步骤5:输出预测

  • 对于被遮蔽的残基(在预训练中原本被遮蔽):

    • 使用最终的标量特征 (h_i^{(L)})
    • 通过线性 → softmax → 预测残基身份
  • 适配度预测(推理阶段) :对于突变体:

    [
    \text{分数} = \sum_{t \in T} \left[\log p(s_t = s_t^{\text{mut}} | S \setminus T) - \log p(s_t = s_t^{\text{wt}} | S \setminus T)\right]
    ]

预训练与推理对比

阶段 行动
预训练 遮蔽15%的残基,通过交叉熵损失预测它们的身份
推理 在体外突变,比较突变体与野生型的对数似然(零样本)
  • 对于S3F:同样遮蔽最近的20个表面点,以防止在训练和推理期间发生泄漏
  • 如果没有原生结构可用,使用AlphaFold2生成结构

输出

  • 残基级别的预测残基类型 (在预训练期间)
  • 每个突变的适配度分数 (在推理期间),用于对突变效应进行排序

您是否需要一个 S2F与S3F流程的对比图

点云

好的,下面是对这段话的翻译:

是的,你确实应该问到这一点 — 区分 S3F 与 S2F 的关键创新 恰恰在于通过 dMaSIF 使用 表面点云进行蛋白质表面建模 的引入。让我们详细澄清一切:

🔹 什么是 dMaSIF

dMaSIF(可微分子表面相互作用指纹)是一种几何深度学习方法,最初由 [Gainza et al., 《Nature Methods》,2020 年] 提出,并由 [Sverrisson et al., CVPR 2021] 进行扩展。

🧠 dMaSIF 的关键概念:

  1. 输入:蛋白质 3D 原子结构(坐标)。
  2. 目标:计算一个 点云 来近似表示蛋白质的 分子表面
  3. 方法
    • 它会采样数千个表面点。
    • 每个点都配备有 几何描述符
      • 曲率
      • 热核签名(HKS)
    • 这些描述符用于描述 局部几何 / 拓扑结构 — 对于建模结合位点、疏水口袋等非常有用。
  4. 输出
    • 一个点云:(\tilde{X} = { \tilde{x}1, ..., \tilde{x} } \subset \mathbb{R}^3)
    • 每个点都有关联的 特征 (\tilde{f}_i)(如曲率等)

🔸 S3F 如何利用这个点云?

S3F 将表面点视为 图节点

  • 在它们之上构建一个 k - NN 图(k = 16)。
  • 在整个表面点之间运行 几何向量感知器(GVP) 消息传递。
  • 初始化表面节点 通过:
    • 聚合来自序列(通过 ESM - 2)的附近 残基嵌入
    • 表面几何特征(例如曲率、HKS)进行拼接

然后它将这些丰富的表面特征 映射回 残基嵌入。

🔻 S2F 与 S3F:核心差异

方面 S2F S3F
是否使用结构 ✅ 以 Cα 原子构建半径图 ✅ 同上
是否使用表面信息 ❌ 无 ✅ 添加来自 dMaSIF 点云的表面图
表面消息传递 ✅ 对 kNN 表面图使用 GVP
残基增强 ✅ 表面特征被映射回残基嵌入

所以,是的 — S3F 与 S2F 的不同之处在于整合了蛋白质的表面,特别是通过 dMaSIF 来:

  • 采样表面
  • 添加几何特征
  • 实现更丰富、更细致的表示

您是否需要一个简单的示意图来展示 dMaSIF 点云如何融入 S3F?

好的,让我们开始吧!我将直接对原文进行翻译:

好的 — 让我以清晰易懂的方式解释什么是 dMaSIF 以及它如何生成约 2000 个表面节点(点)。

✅ 什么是 dMaSIF

dMaSIF = 可微分子表面相互作用指纹。它是一种几何深度学习方法,可以将蛋白质的3D 原子结构转换为表示蛋白质分子表面点云

🧠 直观理解:为什么使用 dMaSIF?

蛋白质是3D 物体,具有:

  • 内部的折叠骨架
  • 外部的表面(其他分子“看到”并结合的部位)

表面包含关键信息,如:

  • 结合口袋
  • 疏水 / 亲水区域
  • 电静电区域
  • 曲率和几何形状

→ dMaSIF 让我们能够从表面提取并学习信息,而不仅仅是从原子或残基学习。

🧱 dMaSIF 如何生成约 2000 个表面点:

逐步说明:

  1. 从 3D 蛋白质结构开始

    • 输入 = 所有原子的坐标(通常是 Cα 或完整骨架)
  2. 计算距离场

    • 在分子周围计算一个“平滑表面”(就像在所有原子上包裹一层表面一样)
    • 这一步使用溶剂排除表面近似
  3. 从这个表面采样点

    • 采样数千个点(例如,根据蛋白质大小为 6,000–20,000 个)
    • 每个点都放置在分子的表面
  4. 为每个点计算几何特征

    • 曲率(该点表面的“崎岖程度”)
    • 热核签名(HKS)(编码随时间变化的局部形状 / 几何结构)
    • 这些特征描述了表面补丁的局部形状
  5. 在这些点上构建图

    • 每个点连接到其16 个最近邻居(kNN)

📦 你将获得:

一个点云

  • 约 2000–20,000 个表面点 (\tilde{x}_1, \tilde{x}2, \dots \tilde{x} \in \mathbb{R}^3)
  • 每个点都有关联的几何特征 (\tilde{f}_i \in \mathbb{R}^d)

然后将这个表面图传递给 S3F 中的 GVP 编码器。

📊 示例

步骤 输出
输入 具有 250 个残基的蛋白质
dMaSIF 表面采样 约 8,000 个表面点(取决于蛋白质大小)
每个点的特征 3D 坐标 + 曲率 + HKS
表面图 kNN 图,k = 16 个邻居

🔁 概要(简单解释):

dMaSIF 会覆盖 3D 蛋白质形状,以数千个表面点为“传感器”,每个点可以感知局部形状——曲率、崎岖程度等。然后 S3F 使用这些点来学习更细致的结构,特别是蛋白质与其他分子相互作用的区域。

您是否需要一个简单的示意图来展示原子→表面→采样点的过程?

S2F 和 S3F

好的,下面是对这段话的翻译:

是的!你已经非常接近了 — 让我使用你的术语(残基 2、1 纳米、kNN 等)清晰且具体地解释。

✅ 对于 S2F(仅结构):

  • 残基(如残基 2)是节点。
  • 它构建一个基于半径的图
    • 如果残基 2 与其他残基的 Cα–Cα 距离 < 10Å(1nm),则将其连接。
    • 通常这会给出约 10–30 个邻居,具体取决于蛋白质的密度。

Meaning
仅使用与残基 2 在空间上接近(在 1nm 范围内)的残基进行消息传递。

residue_2 ──── residue_5    ← connected (within 1nm)
     │            │
residue_9       residue_11  ← not connected (too far)

✅ 对于 S3F(添加表面):

  • 也构建与 S2F 相同的 残基 - 残基半径图

PLUS,它添加了:

1. 表面图

  • 数千个 表面点(来自 dMaSIF)形成一个 kNN 图(k = 16)。
  • 每个表面点连接到 16 个最近的其他表面点

2. 表面到残基的映射

  • 每个残基(如残基 2)找到 20 个最近的表面点(通过欧几里得距离)。
  • 这些 20 个表面点嵌入被平均并添加回 残基 2 的特征中。

Meaning
残基 2 从局部表面几何形状(例如形状、曲率、附近的结合口袋)接收额外信息

🎯 全景:

结构图(S2F 和 S3F) 表面图(仅 S3F)
节点 残基(Cα 原子) 来自 dMaSIF 的表面点(6K–20K)
基于半径(<10Å ≈ 1nm) k-NN(每个表面点连接到 16 个邻居)
残基特征 来自 1nm 范围内的邻居 使用每个残基的 20 个最近表面点进行增强

🔄 S3F 中的最后一步(残基 i 更新):

\[h_i^{\text{final}} = h_i^{\text{structure}} + \frac{1}{20} \sum_{\text{20 surface points near } i} h_j^{\text{surface}} \]

✅ 因此对于残基 2:

  • S2F 中:邻居 = 1nm 范围内的残基
  • S3F 中:
    • 相同的残基邻居
    • + 20 个最近的表面点(提供更丰富的上下文)

一个逐步展示 S2F 与 S3F 中残基 2 的邻域的示意图是否有助于你更好地可视化?

posted @ 2025-05-15 21:35  GraphL  阅读(52)  评论(0)    收藏  举报