亲和力预测
1 “预测蛋白 - RNA 结合亲和力” 是什么意思?
-
所预测的量。 结合亲和力通常以标准态结合自由能ΔG(kcal·mol⁻¹)表示。ΔG 越负,表明相互作用越紧密、越有利。计算 “亲和力预测” 即:在不进行体外结合实验的情况下,针对特定的蛋白 - RNA 复合体,估算其ΔG。 在 CoPRA 中,这是通过将复合体输入模型,利用小型多层感知机(MLP)头部从界面融合的序列 - 结构表征中输出一个标量ΔG 值来实现的。
-
它的重要性。 准确的ΔG 预测使你能够在计算机中筛选大量复合体,优先选择候选对象进行湿实验验证,或者量化体内蛋白调控因子与其 RNA 靶标结合的强度。
2 “理解突变引起的结合亲和力变化” 是什么意思?
-
所预测的量。 此处目标是ΔΔG = ΔG_突变体 - ΔG_野生型。ΔΔG 为正意味着突变削弱了结合;为负则表明突变加强了结合。CoPRA 通过使用 相同 的骨架坐标(仅序列嵌入发生变化),分别预测突变体和野生型的ΔG,然后相减来计算ΔΔG。
-
它的重要性。 ΔΔG 能够让你评估点突变(例如,单核苷酸多态性(SNPs)、工程变异体)如何破坏或增强蛋白 - RNA 识别。这对于解读致病变异或设计高亲和力治疗药物至关重要。CoPRA 在盲测 mCSM 数据集上的基准测试表明,经过微调后,它能够泛化到这项任务上,超越了 FoldX 等传统工具。
3 进行这些预测必须提供哪些数据?
CoPRA(以及大多数现代亲和力预测器)针对 每个 蛋白 - RNA 复合体,需要以下三种成分:
| 所需输入 | CoPRA 获取 / 使用方式 | 备注 |
|---|---|---|
| 完整蛋白序列 | 通过冻结的蛋白语言模型(ESM-2 650 M)获取上下文化氨酸残基嵌入。 | 允许任意数量的蛋白链。 |
| 完整 RNA 序列 | 通过冻结的 RNA 语言模型(RiNaLMo 650 M)获取核苷酸嵌入。 | 可处理单 RNA 链或多 RNA 链。 |
| 主链(Cα / P 原子)三维坐标 | 用于构建界面处残基的成对几何特征(距离、取向)。 | 可以是实验(PDB)或高质量预测(例如 AlphaFold + RoseTTAFold)的坐标。 |
嵌入后,CoPRA 会 裁剪 至多 256 个位于界面处的残基 / 核苷酸,添加三个特殊读出标记(复合体 -、蛋白 -、RNA - 层级),并在轻量级双路径 Transformer(“Co - Former”)中融合序列和结构对特征。然后将复合体标记的读出结果输入回归头以预测ΔG(或同时输入野生型和突变体头以预测ΔΔG)。
是的 —— 如果你能为复合体提供完整的序列和合理的骨架结构,CoPRA(或类似模型)将输出亲和力估计值。
额外的裁剪和特殊标记机制是内部运作的;作为用户,你仍然提供 完整 的链。
4 你的任务是否 “相似”?
如果你的目标是:
- 将蛋白链(或链组)和 RNA 链(或链组)输入模型,并且
- 在特定突变后接收绝对ΔG 或ΔΔG,
那么是的,你的任务与 CoPRA 的设置相符。需要注意的细微差别:
- 界面聚焦。 CoPRA 的准确性部分来源于聚焦界面残基;如果你的复合体具有较大、界定不清的界面,或需要建模长程效应,你可能需要调整裁剪策略。
- 结构可用性。 CoPRA 需要至少主链坐标。如果你没有结构,你需要使用仅基于序列的变体,或先加入结构预测步骤。
- 突变粒度。 CoPRA 目前仅处理单点蛋白突变(ΔΔG)。对于多点同时突变或 RNA 侧突变,你可以沿用相同的ΔG - ΔΔG 逻辑,但应使用适当数据重新训练。
总体而言,从完整序列和结构预测ΔG 和ΔΔG 正是 CoPRA 解决的问题;采用类似的流程应能满足你的需求。
评估指标
该论文通过两种主要方式评估 亲和力预测准确性:
1. 绝对结合亲和力(ΔG)预测评估
他们使用 蛋白 - RNA 界面数据库(PRIDB) 数据集,对 CoPRA 的 绝对 ΔG 值 预测进行基准测试。
-
数据集:具有实验结合亲和力的 PRIDB 复合体。
-
评估指标:预测 ΔG 和实验 ΔG 值之间的 皮尔逊相关系数(PCC)。
- PCC 越高,表明预测亲和力与实际亲和力之间的线性相关性越好。
-
结果:CoPRA 的 PCC 达到 0.72,显著优于 FoldX 等基线方法。
为何有效:结合亲和力是连续值,相关性是衡量预测质量的直接指标。
2. 结合亲和力变化(ΔΔG)预测评估
他们还使用 mCSM-NA 数据集评估 ΔΔG 预测(突变对结合的影响)。
- 数据集:mCSM-NA 包含已知 ΔΔG 值的突变(突变体与野生型对比)。
- 评估指标:同样使用预测 ΔΔG 和实验 ΔΔG 之间的 PCC。
- 结果:经过微调后,CoPRA 在 ΔΔG 预测中超越了 mCSM-NA 和 FoldX 等传统方法。
为何重要:ΔΔG 预测对于理解突变影响至关重要,而 PCC 反映了模型根据结合扰动效应对突变进行排序的能力。
3. 消融研究与泛化性检查
他们进一步通过以下方式验证 CoPRA 的设计:
- 进行 消融实验(移除结构信息、移除序列嵌入等)。
- 显示当移除结构或序列上下文时 性能下降,证明两者均不可或缺。
- 在 未见复合体类型 上进行评估,以检查超出训练数据的泛化能力。
📊 摘要表(来自论文):
| 任务 | 数据集 | 评估指标 | 结果 |
|---|---|---|---|
| ΔG 预测 | PRIDB | PCC | 0.72 |
| ΔΔG 预测 | mCSM-NA | PCC | 高于 FoldX 和 mCSM-NA 基线 |
✅ 关键要点:
- 他们通过将预测的 ΔG / ΔΔG 与实验值进行 皮尔逊相关性 比较来评估正确性。
- 对于 绝对亲和力 和 突变诱导变化,CoPRA 均展现出强大的预测能力和比传统工具更好的泛化能力。
想让我用简单图表(输入 → 模型 → ΔG/ΔΔG → PCC 评估)直观呈现评估流程吗?如果需要,请回复 “yes diagram”。
湿实验和模型计算的区别
这个问题很有意思。我们可以把它分成两部分来分析:
🧪 1. 实验室如何测量ΔG(结合亲和力)?
在实际生物物理学中,ΔG 并不是按区域测量的,而是反映了 整个蛋白 - RNA 复合体形成时的总体自由能变化。
-
测量结合亲和力的常见方法:
- 表面等离子共振(SPR): 测量实时结合动力学,给出结合(ka)和解离(kd)速率 → 计算平衡解离常数 Kd → ΔG = RT·ln(Kd)。
- 等温滴定量热法(ITC): 测量结合过程中热量变化,直接计算 ΔG。
- 电泳迁移率变化分析(EMSA): 通过电泳迁移率的变化推断结合强度。
- 滤膜结合实验、荧光各向异性等。
🔗 关键点:
- 这些技术测量的是 蛋白和 RNA 的整体结合。
- 测得的 ΔG 反映的是 总相互作用,而非特定区域。
- 不过,突变、截短或足迹实验 可以帮助确定 哪些区域对结合能贡献最大。
🧠 2. 模型(如 CoPRA)如何定义 “哪些区域” 用于计算亲和力?
- 模型 为每个残基 / 核苷酸生成嵌入向量,但最终将这些信息聚合,为 整个复合体 预测 单一ΔG 值。
- CoPRA 聚焦于 结合界面处的残基,通常选择那些与对方链距离在 10 Å 范围内 的残基。
- 这种 “界面裁剪” 减少了远处非相互作用残基带来的噪声。
- 但从根本上讲,模型仍然预测的是 整个复合体的总体ΔG。
湿实验和模型都预测总体ΔG,但:
- 湿实验不知道 “区域”;它看到的是整个复合体。
- 模型则智能地选择 “可能的相互作用区域” 进行计算,模仿物理结合位点。
✅ 区域是否相似?
-
通常 是的,因为:
- 模型基于 三维邻近性 选择界面残基(与物理结合逻辑相同)。
- 实验足迹或突变扫描通常揭示出 相同的区域 对结合至关重要。
-
例如:
- 如果 SPR 或 ITC 显示突变界面残基后结合能力丧失,这验证了模型所识别的 “活性结合区域”。
🔑 总结对比
| 方面 | 湿实验 | CoPRA 模型 |
|---|---|---|
| ΔG 是什么? | 整体结合自由能 | 界面聚焦模型得出的总体ΔG |
| 区域如何定义? | 整个复合体,但界面通过突变研究推断 | 界面区域由三维邻近性定义(如 ≤ 10 Å) |
| 区域是否相似? | 是的,界面残基在实验ΔG 中也占主导地位 | 是的,模型模仿物理界面定义 |
想让我用一张简单图表直观呈现 湿实验 vs 模型:ΔG 区域与预测逻辑对比 吗?
如果需要,请回复 “yes comparison figure”。
模块聚合
好的,让我们一步一步来:
1. 数据集如何引入突变用于ΔΔG预测?
对于 基于突变的结合亲和力变化(ΔΔG)预测,像 mCSM-NA 这样的数据集提供了 经过实验验证的突变。这些突变 并非随机:
| 方面 | 解释 |
|---|---|
| 突变来源 | 来自真实实验研究(例如,与疾病相关的突变、功能分析、突变扫描实验)。 |
| 约束条件 | 通常选择那些位于或靠近结合界面的突变,或具有生物学相关性(例如,影响功能、已知的SNPs)。 |
| 突变类型 | 通常是蛋白中的 单点突变(氨基酸替换)。 |
| 不是随机的 | 设计用于捕捉对结合有意义的生化影响,而非随机噪声。 |
在训练增强中,一些方法可能会模拟突变以丰富数据,但 CoPRA 在经过精心整理的实验数据集(如 mCSM-NA)上进行评估,这些数据并非随机。
🔑 关键点:
评估所用的突变是 真实、经过整理、实验验证的——并非随机。
2. 论文中的 CPRI 和 MIDM 是什么?
➤ CPRI:复合体成对表示整合
- 功能:CPRI 是整合蛋白 - RNA 界面处残基 成对几何特征(距离、角度) 的模块。
- 原因:捕捉 细致的空间关系(例如,蛋白侧链如何与 RNA 碱基相互作用)。
- 方式:为界面区域中的残基 / 核苷酸构建 二维成对特征矩阵。
- 可以将其视为带有明确几何编码的 “成对注意力图”。
🔑 CPRI = 为界面残基 / 核苷酸制作结构信息的二维图。
➤ MIDM:多实例双路径模型
-
功能:MIDM 是 核心模型架构,分别处理序列和结构路径,然后将它们融合。
-
原因:因为序列上下文(来自语言模型嵌入)和空间相互作用(来自几何特征)是互补的。
-
方式:使用两个轻量级的变换路径:
- 一个用于 序列嵌入(来自 ESM-2 和 RiNaLMo)。
- 一个用于 CPRI 结构特征。
- 然后将它们结合起来进行下游的ΔG 或ΔΔG 预测。
🔑 MIDM = 双路径变换器,联合处理序列和结构特征。
✅ 快速总结:
| 术语 | 内容 | 用途 |
|---|---|---|
| 突变(ΔΔG任务) | 经过整理、实验(来自mCSM-NA)、聚焦界面 | 预测现实世界中突变的影响 |
| CPRI | Complex Pairwise Representation Integration | 编码界面残基之间的几何关系 |
| MIDM | Multi-Instance Dual-Path Model | 双路径变换器,合并序列和结构特征 |
想让我用一张图表展示序列、结构、CPRI、MIDM 和ΔG/ΔΔG 预测是如何连接的吗?
如果需要,请回复 “yes pipeline figure”。
突变引起的亲和力变化
在 CoPRA 论文中,预测 ΔΔG(突变引起的结合亲和力变化)被表述为两个预测 ΔG 值的差值:
以下是模型中的处理流程:
🔹 结合亲和力变化预测的步骤
-
输入:
-
野生型蛋白质-RNA 复合物和突变复合物,均包含:
-
序列(野生型与突变型)
-
相同的主链结构
- CoPRA 仅使用主链原子(例如,蛋白质的 N、CA、C、O)来获取结构信息。即使对于突变体,也能沿用相同的 3D 结构(简化建模,避免需要完整的突变体 3D 结构)。
-
-
-
处理:
- 将两个复合物输入 CoPRA 的 Co-Former 模块。
- Co-Former 融合 PLM 和 RLM 的输出(来自序列)与结构嵌入(基于主链原子距离、角度等)。
- 对于每个复合物,生成一个特殊复合物节点嵌入 (C_s),作为复合物的全局表示。
-
预测:
-
将每个 (C_s) 通过 MLP(多层感知机)头部预测结合亲和力:
- (\Delta G_{\text{wild}} = \text{MLP}(C_s^{\text{wild}}))
- (\Delta G_{\text{mut}} = \text{MLP}(C_s^{\text{mut}}))
-
-
输出:
-
计算差值:
\[\Delta\Delta G = \Delta G_{\text{mut}} - \Delta G_{\text{wild}} \]
-
🔸 因此,回答你的问题:
它是否仅计算突变能量并使用给定的原始能量?
不是,它预测两个能量值,均使用相同的模型流程。它并不依赖给定的野生型 ΔG 值。
野生型和突变型的 ΔG 值均通过序列 + 结构输入,利用 Co-Former 模块进行预测。ΔΔG 是从两个预测值的差值中计算得出。
这种方法的优势在于:
- 端到端学习,无需为野生型和突变型提供明确的 ΔG 标签。
- 零样本突变效应预测(即无需针对突变特定数据集进行再训练)。

浙公网安备 33010602011771号