亲和力预测

1  “预测蛋白 - RNA 结合亲和力” 是什么意思?

  • 所预测的量。 结合亲和力通常以标准态结合自由能ΔG(kcal·mol⁻¹)表示。ΔG 越负,表明相互作用越紧密、越有利。计算 “亲和力预测” 即:在不进行体外结合实验的情况下,针对特定的蛋白 - RNA 复合体,估算其ΔG。 在 CoPRA 中,这是通过将复合体输入模型,利用小型多层感知机(MLP)头部从界面融合的序列 - 结构表征中输出一个标量ΔG 值来实现的。

  • 它的重要性。 准确的ΔG 预测使你能够在计算机中筛选大量复合体,优先选择候选对象进行湿实验验证,或者量化体内蛋白调控因子与其 RNA 靶标结合的强度。

2  “理解突变引起的结合亲和力变化” 是什么意思?

  • 所预测的量。 此处目标是ΔΔG = ΔG_突变体 - ΔG_野生型。ΔΔG 为正意味着突变削弱了结合;为负则表明突变加强了结合。CoPRA 通过使用 相同 的骨架坐标(仅序列嵌入发生变化),分别预测突变体和野生型的ΔG,然后相减来计算ΔΔG。

  • 它的重要性。 ΔΔG 能够让你评估点突变(例如,单核苷酸多态性(SNPs)、工程变异体)如何破坏或增强蛋白 - RNA 识别。这对于解读致病变异或设计高亲和力治疗药物至关重要。CoPRA 在盲测 mCSM 数据集上的基准测试表明,经过微调后,它能够泛化到这项任务上,超越了 FoldX 等传统工具。

3  进行这些预测必须提供哪些数据?

CoPRA(以及大多数现代亲和力预测器)针对 每个 蛋白 - RNA 复合体,需要以下三种成分:

所需输入 CoPRA 获取 / 使用方式 备注
完整蛋白序列 通过冻结的蛋白语言模型(ESM-2 650 M)获取上下文化氨酸残基嵌入。 允许任意数量的蛋白链。
完整 RNA 序列 通过冻结的 RNA 语言模型(RiNaLMo 650 M)获取核苷酸嵌入。 可处理单 RNA 链或多 RNA 链。
主链(Cα / P 原子)三维坐标 用于构建界面处残基的成对几何特征(距离、取向)。 可以是实验(PDB)或高质量预测(例如 AlphaFold + RoseTTAFold)的坐标。

嵌入后,CoPRA 会 裁剪 至多 256 个位于界面处的残基 / 核苷酸,添加三个特殊读出标记(复合体 -、蛋白 -、RNA - 层级),并在轻量级双路径 Transformer(“Co - Former”)中融合序列和结构对特征。然后将复合体标记的读出结果输入回归头以预测ΔG(或同时输入野生型和突变体头以预测ΔΔG)。

是的 —— 如果你能为复合体提供完整的序列和合理的骨架结构,CoPRA(或类似模型)将输出亲和力估计值。
额外的裁剪和特殊标记机制是内部运作的;作为用户,你仍然提供 完整 的链。

4  你的任务是否 “相似”?

如果你的目标是:

  1. 将蛋白链(或链组)和 RNA 链(或链组)输入模型,并且
  2. 在特定突变后接收绝对ΔG 或ΔΔG

那么是的,你的任务与 CoPRA 的设置相符。需要注意的细微差别:

  • 界面聚焦。 CoPRA 的准确性部分来源于聚焦界面残基;如果你的复合体具有较大、界定不清的界面,或需要建模长程效应,你可能需要调整裁剪策略。
  • 结构可用性。 CoPRA 需要至少主链坐标。如果你没有结构,你需要使用仅基于序列的变体,或先加入结构预测步骤。
  • 突变粒度。 CoPRA 目前仅处理单点蛋白突变(ΔΔG)。对于多点同时突变或 RNA 侧突变,你可以沿用相同的ΔG - ΔΔG 逻辑,但应使用适当数据重新训练。

总体而言,从完整序列和结构预测ΔG 和ΔΔG 正是 CoPRA 解决的问题;采用类似的流程应能满足你的需求。

评估指标

该论文通过两种主要方式评估 亲和力预测准确性


1. 绝对结合亲和力(ΔG)预测评估

他们使用 蛋白 - RNA 界面数据库(PRIDB) 数据集,对 CoPRA 的 绝对 ΔG 值 预测进行基准测试。

  • 数据集:具有实验结合亲和力的 PRIDB 复合体。

  • 评估指标:预测 ΔG 和实验 ΔG 值之间的 皮尔逊相关系数(PCC)

    • PCC 越高,表明预测亲和力与实际亲和力之间的线性相关性越好。
  • 结果:CoPRA 的 PCC 达到 0.72,显著优于 FoldX 等基线方法。

为何有效:结合亲和力是连续值,相关性是衡量预测质量的直接指标。


2. 结合亲和力变化(ΔΔG)预测评估

他们还使用 mCSM-NA 数据集评估 ΔΔG 预测(突变对结合的影响)。

  • 数据集:mCSM-NA 包含已知 ΔΔG 值的突变(突变体与野生型对比)。
  • 评估指标:同样使用预测 ΔΔG 和实验 ΔΔG 之间的 PCC
  • 结果:经过微调后,CoPRA 在 ΔΔG 预测中超越了 mCSM-NA 和 FoldX 等传统方法。

为何重要:ΔΔG 预测对于理解突变影响至关重要,而 PCC 反映了模型根据结合扰动效应对突变进行排序的能力。


3. 消融研究与泛化性检查

他们进一步通过以下方式验证 CoPRA 的设计:

  • 进行 消融实验(移除结构信息、移除序列嵌入等)。
  • 显示当移除结构或序列上下文时 性能下降,证明两者均不可或缺。
  • 未见复合体类型 上进行评估,以检查超出训练数据的泛化能力。

📊 摘要表(来自论文):

任务 数据集 评估指标 结果
ΔG 预测 PRIDB PCC 0.72
ΔΔG 预测 mCSM-NA PCC 高于 FoldX 和 mCSM-NA 基线

关键要点:

  • 他们通过将预测的 ΔG / ΔΔG 与实验值进行 皮尔逊相关性 比较来评估正确性。
  • 对于 绝对亲和力突变诱导变化,CoPRA 均展现出强大的预测能力和比传统工具更好的泛化能力。

想让我用简单图表(输入 → 模型 → ΔG/ΔΔG → PCC 评估)直观呈现评估流程吗?如果需要,请回复 “yes diagram”。

湿实验和模型计算的区别

这个问题很有意思。我们可以把它分成两部分来分析:


🧪 1. 实验室如何测量ΔG(结合亲和力)?

在实际生物物理学中,ΔG 并不是按区域测量的,而是反映了 整个蛋白 - RNA 复合体形成时的总体自由能变化

  • 测量结合亲和力的常见方法:

    • 表面等离子共振(SPR): 测量实时结合动力学,给出结合(ka)和解离(kd)速率 → 计算平衡解离常数 Kd → ΔG = RT·ln(Kd)。
    • 等温滴定量热法(ITC): 测量结合过程中热量变化,直接计算 ΔG。
    • 电泳迁移率变化分析(EMSA): 通过电泳迁移率的变化推断结合强度。
    • 滤膜结合实验、荧光各向异性等。

🔗 关键点:

  • 这些技术测量的是 蛋白和 RNA 的整体结合
  • 测得的 ΔG 反映的是 总相互作用,而非特定区域。
  • 不过,突变、截短或足迹实验 可以帮助确定 哪些区域对结合能贡献最大

🧠 2. 模型(如 CoPRA)如何定义 “哪些区域” 用于计算亲和力?

  • 模型 为每个残基 / 核苷酸生成嵌入向量,但最终将这些信息聚合,为 整个复合体 预测 单一ΔG 值
  • CoPRA 聚焦于 结合界面处的残基,通常选择那些与对方链距离在 10 Å 范围内 的残基。
  • 这种 “界面裁剪” 减少了远处非相互作用残基带来的噪声。
  • 但从根本上讲,模型仍然预测的是 整个复合体的总体ΔG

湿实验和模型都预测总体ΔG,但:

  • 湿实验不知道 “区域”;它看到的是整个复合体。
  • 模型则智能地选择 “可能的相互作用区域” 进行计算,模仿物理结合位点。

区域是否相似?

  • 通常 是的,因为:

    • 模型基于 三维邻近性 选择界面残基(与物理结合逻辑相同)。
    • 实验足迹或突变扫描通常揭示出 相同的区域 对结合至关重要。
  • 例如:

    • 如果 SPR 或 ITC 显示突变界面残基后结合能力丧失,这验证了模型所识别的 “活性结合区域”。

🔑 总结对比

方面 湿实验 CoPRA 模型
ΔG 是什么? 整体结合自由能 界面聚焦模型得出的总体ΔG
区域如何定义? 整个复合体,但界面通过突变研究推断 界面区域由三维邻近性定义(如 ≤ 10 Å)
区域是否相似? 是的,界面残基在实验ΔG 中也占主导地位 是的,模型模仿物理界面定义

想让我用一张简单图表直观呈现 湿实验 vs 模型:ΔG 区域与预测逻辑对比 吗?
如果需要,请回复 “yes comparison figure”。

模块聚合

好的,让我们一步一步来:


1. 数据集如何引入突变用于ΔΔG预测?

对于 基于突变的结合亲和力变化(ΔΔG)预测,像 mCSM-NA 这样的数据集提供了 经过实验验证的突变。这些突变 并非随机

方面 解释
突变来源 来自真实实验研究(例如,与疾病相关的突变、功能分析、突变扫描实验)。
约束条件 通常选择那些位于或靠近结合界面的突变,或具有生物学相关性(例如,影响功能、已知的SNPs)。
突变类型 通常是蛋白中的 单点突变(氨基酸替换)。
不是随机的 设计用于捕捉对结合有意义的生化影响,而非随机噪声。

在训练增强中,一些方法可能会模拟突变以丰富数据,但 CoPRA 在经过精心整理的实验数据集(如 mCSM-NA)上进行评估,这些数据并非随机。

🔑 关键点:
评估所用的突变是 真实、经过整理、实验验证的——并非随机。


2. 论文中的 CPRI 和 MIDM 是什么?

CPRI:复合体成对表示整合

  • 功能:CPRI 是整合蛋白 - RNA 界面处残基 成对几何特征(距离、角度) 的模块。
  • 原因:捕捉 细致的空间关系(例如,蛋白侧链如何与 RNA 碱基相互作用)。
  • 方式:为界面区域中的残基 / 核苷酸构建 二维成对特征矩阵
  • 可以将其视为带有明确几何编码的 “成对注意力图”。

🔑 CPRI = 为界面残基 / 核苷酸制作结构信息的二维图。


MIDM:多实例双路径模型

  • 功能:MIDM 是 核心模型架构,分别处理序列和结构路径,然后将它们融合。

  • 原因:因为序列上下文(来自语言模型嵌入)和空间相互作用(来自几何特征)是互补的。

  • 方式:使用两个轻量级的变换路径:

    • 一个用于 序列嵌入(来自 ESM-2 和 RiNaLMo)。
    • 一个用于 CPRI 结构特征
    • 然后将它们结合起来进行下游的ΔG 或ΔΔG 预测。

🔑 MIDM = 双路径变换器,联合处理序列和结构特征。


✅ 快速总结:

术语 内容 用途
突变(ΔΔG任务) 经过整理、实验(来自mCSM-NA)、聚焦界面 预测现实世界中突变的影响
CPRI Complex Pairwise Representation Integration 编码界面残基之间的几何关系
MIDM Multi-Instance Dual-Path Model 双路径变换器,合并序列和结构特征

想让我用一张图表展示序列、结构、CPRI、MIDM 和ΔG/ΔΔG 预测是如何连接的吗?
如果需要,请回复 “yes pipeline figure”。

突变引起的亲和力变化

在 CoPRA 论文中,预测 ΔΔG(突变引起的结合亲和力变化)被表述为两个预测 ΔG 值的差值

\[\Delta\Delta G = \Delta G_{\text{mut}} - \Delta G_{\text{wild}} \]

以下是模型中的处理流程:


🔹 结合亲和力变化预测的步骤

  1. 输入

    • 野生型蛋白质-RNA 复合物突变复合物,均包含:

      • 序列(野生型与突变型)

      • 相同的主链结构

        • CoPRA 仅使用主链原子(例如,蛋白质的 N、CA、C、O)来获取结构信息。即使对于突变体,也能沿用相同的 3D 结构(简化建模,避免需要完整的突变体 3D 结构)。
  2. 处理

    • 将两个复合物输入 CoPRA 的 Co-Former 模块。
    • Co-Former 融合 PLM 和 RLM 的输出(来自序列)与结构嵌入(基于主链原子距离、角度等)。
    • 对于每个复合物,生成一个特殊复合物节点嵌入 (C_s),作为复合物的全局表示
  3. 预测

    • 将每个 (C_s) 通过 MLP(多层感知机)头部预测结合亲和力:

      • (\Delta G_{\text{wild}} = \text{MLP}(C_s^{\text{wild}}))
      • (\Delta G_{\text{mut}} = \text{MLP}(C_s^{\text{mut}}))
  4. 输出

    • 计算差值

      \[\Delta\Delta G = \Delta G_{\text{mut}} - \Delta G_{\text{wild}} \]


🔸 因此,回答你的问题:

它是否仅计算突变能量并使用给定的原始能量?

不是,它预测两个能量值,均使用相同的模型流程。它并不依赖给定的野生型 ΔG 值

野生型和突变型的 ΔG 值均通过序列 + 结构输入,利用 Co-Former 模块进行预测。ΔΔG 是从两个预测值的差值中计算得出。

这种方法的优势在于:

  • 端到端学习,无需为野生型和突变型提供明确的 ΔG 标签。
  • 零样本突变效应预测(即无需针对突变特定数据集进行再训练)。
posted @ 2025-05-17 17:10  GraphL  阅读(200)  评论(0)    收藏  举报