PG-AbD
PG-AbD 框架概览
PG-AbD(Protein Language Model Plus GFlowNet for Antibody Design,蛋白质语言模型与 GFlowNet 融合的抗体设计框架)是一种将预训练蛋白质语言模型(PLM)与生成流网络(GFlowNet)相结合的统一生成式框架,旨在设计抗体序列(特别是抗体 CDR 区域)。其核心目标是生成 多样化、新颖且可开发 的抗体候选序列,旨在解决直接从 PLM 采样通常需要低温解码从而牺牲多样性的问题。PG-AbD 拥有两种运行模式:一种是 无训练数据模式,用于从头设计抗体(仅在 PLM 指引下探索);另一种是 数据驱动模式,用于抗体优化(结合 PLM 和波兹曼模型)。两种模式生成的输出均为候选抗体 CDR 序列(氨基酸序列),旨在特异性结合目标抗原并具备良好的可开发性。框架的输入取决于具体应用场景:在 从头设计 时,无需额外训练数据或模板(系统仅在 PLM 指引下广泛探索);在 优化 已知抗体时,可提供 模板 CDR 序列及其期望功能 来调节生成过程(通过 FiLM 调节模块实现)。总之,PG-AbD 以设计目标(以及可选模板抗体序列)作为输入,产出 多样化、高质量的抗体序列,充分发挥 PLM 和 GFlowNet 的协同作用。
生成过程与 GFlowNet
PG-AbD 将抗体序列生成定义为一个 顺序决策过程,借助生成流网络(GFlowNet)实现。生成流程从空白 CDR 序列(初始状态)起步,逐步 追加氨基酸 直至构建出预期长度的完整序列(终止状态)。生成轨迹的每一步均添加一个氨基酸残基,例如逐一添加 CDR 残基。GFlowNet 定义了这些步骤上的随机策略 —— 实际上是一个 强化学习(RL)智能体,依据当前的部分序列(状态)选择下一步的氨基酸动作。提供模板抗体时(针对优化任务),模板的序列特征会通过 FiLM 调节模块 融入策略网络,从而调节生成过程,引导 GFlowNet 在模板序列附近探索(有利于亲和力成熟或优化)。生成进程在 CDR 完全生成后结束,此时会为完整序列 $s$ 分配一个 奖励 $R(s)$。
奖励函数 在生成流程中占据关键地位。在 PG-AbD 框架内,奖励源自经训练的模型,用于评估序列的 “优质” 或 “自然” 程度。在无训练数据的从头设计模式下,奖励由预训练的 蛋白质语言模型(PLM) 提供 —— 具体使用 ProGen2 蛋白质语言模型作为外部预言机对序列进行评分。在数据驱动模式下,奖励来自一个 专家组合(PoE)模型,该模型融合了 PLM 与额外的波兹曼模型(详见下文)。无论来源如何,奖励均为与最终序列相关的 正标量,GFlowNet 经过训练后,确保 生成特定序列 $s$ 的概率与奖励成正比 。换句话说,生成流程偏向于高奖励(高质量)抗体序列,但并非仅限于单一最高奖励序列 —— 这是 GFlowNet 的核心特性之一,使其能够 采样多样化的高评分序列而非仅优化单一胜者。
GFlowNet 作为强化学习组件
GFlowNet 承担 PG-AbD 中 强化学习骨干 的角色,掌控抗体序列的探索与生成。与传统强化学习(旨在寻找单一策略以最大化预期奖励)不同,GFlowNet 经训练后能够 采样多个序列,其概率与既定奖励指标成正比。这意味着 GFlowNet 将抗体设计任务转化为在奖励函数指引下探索序列空间的过程。PLM 或 PoE 就像环境或 “预言机” 一样对完整序列进行评分,GFlowNet 则调整其策略,引导更多概率质量流向高分序列。通过这种方式,GFlowNet “释放” 了 PLM 的潜力:PLM 用于评估序列,而 GFlowNet 则主动搜索多样化且高分的序列。实际上,GFlowNet 开展的是一种基于强化学习的 多样化搜索,覆盖了 CDR(补体决定区)组合空间(对于 60 残基的 CDR 区域,组合数量级高达 20^60)。
GFlowNet 如何确保多样性:由于它经训练后与奖励分布相匹配(而非仅追求最大值),因此能够生成多样化的高奖励序列。框架避免了模式坍缩(仅选择单一最优序列),转而生成一组候选序列 —— 所有候选序列均符合奖励标准,但彼此间具有显著差异。这直接应对了多样性挑战:“GFlowNet 彻底探索目标抗体分布空间,高效生成一组具有高合理性的多样化抗体 CDR 序列。” GFlowNet 训练算法采用 轨迹平衡目标(一种流一致性损失)调整策略网络参数,确保每个可能序列 $s$ 的总流量与 $R(s)$ 成正比。实际上,这意味着 GFlowNet 学会了 为高奖励序列赋予更高概率,同时探索众多不同序列。这种基于强化学习的机制使得 PG-AbD 能够生成抗体,这些抗体不仅 可开发、新颖,而且比单纯基于 PLM 的生成在多样性指标上表现更优。
奖励函数:PLM 和波兹曼模型的专家组合(PoE)
在 PG-AbD 中,奖励函数可以是单一专家(仅 PLM)或 专家组合(PoE)模型(多个专家模型的组合)。预训练蛋白质语言模型(PLM) 和 波兹曼模型 是两个专家组件,各自贡献了序列的期望特性:
- 
预训练 PLM(全局专家):PLM(例如 ProGen2)是一个在广泛蛋白序列上训练的大型语言模型。在 PG-AbD 中,它未经进一步微调(参数固定),用于评估候选抗体序列的 自然性 或合理性。PLM 依据序列的构成合理性及蛋白特性为序列分配概率(或伪似然)。这捕捉了蛋白序列的 全局约束 —— 语法规则、常见基序及整体可行性。PLM 确保生成的 CDR 序列具有合理的氨基酸组成、基序模式等,与可开发性和稳定性相关。在 PoE 中,PLM 提供了序列 $s$ 的 “全局” 概率 $P_{\text{PLM}}(s)$。 
- 
波兹曼模型(局部专家):波兹曼模型是一种无向概率模型(本质上是成对马尔可夫随机场的参数化),捕捉抗体(或目标任务)领域的 局部序列约束和共进化关系。它依据学习到的位置偏好(保守性)和成对耦合(共变异)为序列分配概率。实际上,波兹曼模型基于可用的 特定任务抗体序列数据(例如,特定抗原或家族的已知结合剂或变体集合)进行训练。通过学习数据中的残基保守模式和依赖关系,波兹曼模型编码了 局部领域特定约束 —— 例如,CDR 中的某些位置可能共变异,或某些位置对特定氨基酸具有偏好 / 禁忌,这些都与结构或结合要求相关。波兹曼模型产生了序列 $s$ 的概率 $P_{\text{Potts}}(s)$,反映了序列在特定领域的契合度。 
PoE 作为奖励:在任务具备足够训练数据时,PG-AbD 通过专家组合(PoE)模型融合 PLM 和波兹曼模型。PoE 分布定义为:
\(P_{\text{PoE}}(s) \;\propto\; P_{\text{PLM}}(s) \times P_{\text{Potts}}(s),\)
并附加归一化常数以确保其为有效分布。换言之,奖励 $R(s)$ 采用该组合 PoE 概率(或与之成比例的值)。PoE 有效地 “整体建模抗体序列的概率分布”,整合全局和局部约束。仅当序列同时符合 PLM 的标准和波兹曼模型的标准时,才能获得高奖励。例如,即使 PLM 认为序列整体类似蛋白,但如果波兹曼模型发现其违反目标抗体的关键基序或耦合,序列的综合评分将降低;反之,若序列契合家族模式,但包含不寻常或非蛋白元素,也将获得较低的综合概率。通过相乘和归一化,PoE 将概率质量集中在 两个模型高概率区域的交集 上。PoE 于是成为 GFlowNet 在联合建模场景中的 奖励函数。(在无训练数据场景下,奖励简化为仅 PLM 的概率或评分,这在概念上是仅含单一专家的 PoE 特例。)
GFlowNet 和 PoE 的联合训练
PG-AbD 的一项关键创新是 交错(联合)训练机制,其中 GFlowNet 策略和 PoE(尤其是其中的波兹曼模型)同时迭代更新。与先拟合波兹曼模型再训练 GFlowNet(或相反顺序)不同,PG-AbD 采取 同时更新 的方式。联合训练过程如下(概念性地体现在论文的 图 3 中):
- 
初始化 各组件:PLM 固定(预训练完成)。初始化波兹曼模型参数(若未从数据中导出)及 GFlowNet 策略网络(可以是未经训练或已在基础分布上预训练的网络)。若具备 正训练序列集合(例如特定任务的已知功能抗体),这些序列定义了波兹曼模型应捕捉的目标分布。 
- 
GFlowNet 采样序列:基于当前奖励函数(初始阶段基于当前波兹曼参数和固定 PLM),GFlowNet 策略生成一批抗体序列。由于 GFlowNet 的随机性,其将提出多种序列,偏向于当前奖励较高的序列。这些采样序列充当 候选解决方案 —— 重要的是,它们在目标数据分布的视角下充当 负样本。GFlowNet 实际上充当了当前 PoE 分布 $P_{\text{PoE}}(s)$ 的采样器,探索当前模型认为可能的序列。 
- 
通过对比散度更新波兹曼模型:将步骤 2 中新采样的序列与真实训练序列进行对比。采用 对比散度(CD)目标 更新波兹曼模型,以改进其对训练数据的建模。实际上,这意味着调整波兹曼参数以 提升真实(正)抗体序列的概率,并降低 GFlowNet 生成的(负)序列的概率。GFlowNet 的采样序列实际上充当了训练波兹曼模型能量分布的 MCMC 负样本。例如,若 GFlowNet 提出 PLM 喜好的序列,但该序列未出现在训练集中(或与之存在偏差),波兹曼模型将学习为其(或类似序列)分配较低概率,除非其确实契合共进化约束。这一步骤使局部专家更精准地贴合实际期望的抗体分布。 
- 
更新 GFlowNet(策略网络):波兹曼模型更新后,奖励地形(PoE)将略微改变(波兹曼模型可能为序列赋予不同分数)。此时利用 轨迹平衡损失 调整 GFlowNet 的策略,确保其采样与新的 $P_{\text{PoE}}(s)$ 成比例。PG-AbD 还利用可用的 训练数据轨迹 进行此更新:已知抗体序列可被视为高奖励目标状态,GFlowNet 应学会生成这些序列(这是 利用 方面)。同时,GFlowNet 继续探索新序列(探索 方面),在奖励指引下开展探索。概念上,GFlowNet 更新确保了 “$pi(s) \propto R(s)$”(策略概率 ∝ 奖励)适用于新的 PoE 定义的奖励。 
- 
重复:流程返回步骤 2,GFlowNet 现在从略微改进的分布中采样,波兹曼模型则更精准地契合真实数据分布。这种 交错训练 持续多轮。随着时间推移,波兹曼模型(作为 PoE 的一部分)和 GFlowNet 策略协同进化:波兹曼模型成为评估序列的更优专家(捕捉期望抗体集合的微妙模式),GFlowNet 则更擅长在不断变化的分布中生成高奖励序列。二者相互促进:“GFlowNet 为 PoE 的对比学习提供正负样本对,而 PoE 则作为 GFlowNet 探索的指引。” 
通过这种联合训练机制,PG-AbD 实现了 探索与利用的平衡。GFlowNet 的探索能够发现波兹曼模型(基于有限数据训练)未曾考虑的序列,而波兹曼模型的精细调节确保探索锚定于期望的功能空间。最终,GFlowNet 收敛到从 改进后的分布 中采样的状态,该分布同时捕捉了 PLM 提供的通用蛋白现实性(源于 PLM)和波兹曼模型提供的特定功能约束。作者指出,这种受先前联合训练能量基模型与 GFlowNet 工作启发的方法,优于顺序训练方法。训练结束后,PG-AbD 能够生成一组多样化的优化抗体序列,这些序列既契合已知功能抗体(得益于波兹曼模型),又非训练数据的简单复制品(得益于 PLM 引导和 GFlowNet 的多样性)。许多生成的抗体经 硅基验证 能够形成稳定的抗原 - 抗体 3D 结构(借助 AlphaFold 建模),这证明了框架确实生成了功能性设计。
组件及流程总结(表格形式)
下表总结了 PG-AbD 的关键组件及其在框架中的作用:
| 组件 | 在 PG-AbD 中的作用 | 
|---|---|
| 输入 / 模板 | 指定设计背景。对于抗体优化任务,可提供具有期望功能的 模板 CDR 序列,通过 FiLM 调节模块引导策略网络。若未提供模板(从头设计),模型仅在 PLM 指引下从零开始探索。 | 
| GFlowNet 策略 | 生成模型(强化学习智能体),以顺序方式构建抗体序列。确保采样序列的概率与奖励成正比,从而探索众多高奖励解决方案而非单一最优解。通过轨迹平衡学习,与奖励分布保持一致。为 PoE 的训练提供来自其探索的负样本。 | 
| 预训练 PLM | 冻结的蛋白质语言模型(例如 ProGen2),用于评估序列的 “全局” 可行性(自然性)。作为奖励评分的预言机;高 PLM 分数表明序列外观类似真实抗体。确保满足通用开发性约束。在 PoE 中,贡献 $P_{\text{PLM}}(s)$。 | 
| 波兹曼模型 | 可训练的能量基模型,捕捉 “局部” 约束(特定于目标抗体或数据集的序列保守性和共变异关系)。通过对比散度基于已知抗体序列(若可用)进行训练。确保序列遵循目标特有的功能 / 结构基序。在 PoE 中,贡献 $P_{\text{Potts}}(s)$。 | 
| 专家组合(PoE)奖励 | 组合奖励函数,将 PLM 和波兹曼模型的概率相乘(归一化处理)。只有同时符合 PLM 的全局标准和波兹曼模型的局部标准的序列才能获得高奖励。引导 GFlowNet 的采样;实际上是 GFlowNet 力图匹配的 “目标” 分布。 | 
| 输出序列 | PG-AbD 提议的新型抗体 CDR 序列。在无训练数据模式下,这些序列是 PLM 认为高概率的多样化序列(从头设计)。在联合训练模式下,这些序列是在现实性和目标特定模式之间取得平衡的优化序列(通常是已知抗体的改进或变体)。可选取一组多样化顶级候选序列供进一步实验验证。 | 
总体而言,PG-AbD 的设计融合了生成建模和评估建模的优势:GFlowNet 带来基于强化学习的生成 策略,能够高效探索庞大的序列空间,而 PLM 和波兹曼模型则提供了强大的 评分函数(奖励),编码了通用生物化学可行性和特定功能约束。这种协同作用使得 PG-AbD 能够生成 多样化、高质量且定制化 的抗体设计,标志着计算抗体设计领域的一项重大进步。
来源:上述描述基于 Yin 等(2025 年)提出的 PG-AbD 框架,该框架阐述了由预训练 PLM 和波兹曼模型引导的 GFlowNet 在多样化的抗体 CDR 序列生成中的应用。
关系
🔄 GFlowNet = 生成流网络
可以这样理解:
“一种逐步构建序列(例如抗体)的工具,能够更频繁地构建出更好(更理想)的序列。”
- 逐残基生成 CDR 序列(就像搭乐高积木)。
- 学会一种 策略:添加下一个氨基酸的最佳选择是什么。
- 经过训练,使得 生成序列的概率与序列质量(基于奖励)相匹配。
- 这不是 随机搜索 —— 而是有针对性的探索。
🧠 PLM = 蛋白质语言模型
“一种在数百万蛋白质序列上训练的大型 AI 模型,就像蛋白质版的 GPT。”
- 学习蛋白质的语法规则和语义。
- 能够判断新序列是否具有生物学合理性。
- 在 PG-AbD 中,它充当为生成的抗体序列 打分的奖励函数。
PG-AbD 使用的是强大的自回归 PLM —— ProGen2。
🧩 波兹曼模型
“一种统计模型,能够学会在蛋白质序列的不同位置上,哪些氨基酸倾向于共同出现。”
- 
也称为 直接耦合分析(DCA)。 
- 
从 真实抗体序列 中学习: - 哪些残基会 共同进化?
- 哪些组合是 现实的?
 
- 
提供特定于抗体的 局部约束(例如,CDR 区域)。 
📦 PoE = 专家组合
“一种通过将多个模型的概率相乘来结合这些模型的方法 —— 只有当 所有 专家都认为序列很好时,该序列才被认为很好。”
- 
PG-AbD 的 PoE 结合了: - PLM,用于全局约束(例如,通用蛋白质语法规则)。
- 波兹曼模型,用于局部约束(例如,特定抗体规则)。
 
- 
序列的最终奖励为: 
- 这确保只有 同时满足全局和局部要求 的序列才能获得高分。
🎛️ FiLM = 特征式线性调制
“一种利用条件输入控制神经网络行为的方法。”
- 
在 PG-AbD 中,它用于: - 接收 模板抗体序列(例如,已知结合剂)。
- 影响 GFlowNet 如何生成新序列。
 
- 
可以这样理解: “给 GFlowNet 一个关于我们想要哪种抗体的提示。” 
它有助于 引导生成过程偏向特定抗原靶标。
✅ 汇总表格
| 术语 | 在 PG-AbD 中的用途 | 类比 | 
|---|---|---|
| GFlowNet | 逐部序列生成器 | 就像抗体的乐高搭建器 | 
| PLM | 用于蛋白质合理性的全局打分器 | 就像蛋白质版的 GPT | 
| 波兹曼模型 | 学习共同进化的残基模式 | 就像残基的规则检查器 | 
| PoE | 将 PLM 和波兹曼模型的分数结合成一个奖励分数 | 就像模型共识的 “与门” | 
| FiLM | 将模板序列注入生成过程 | 就像用引导示例进行转向 | 
需要一张简洁的插图来直观总结这些内容吗?
框架
🧬 PG-AbD:抗体序列生成器(简化视图)
1. 目标
生成抗体的 CDR 区域,使其具备以下特性:
✅ 可开发性✅ 多样性✅ 新颖性
2. 输入
| 组件 | 描述 | 
|---|---|
| CDR 模板 | 可选输入,用于引导设计(例如,特定抗原的情况) | 
| 训练序列 | 可选,用于抗体优化(源自 SabDab 数据库) | 
| PLM(ProGen2) | 预训练的蛋白质语言模型,用于提供通用知识 | 
| 波兹曼模型 | 从抗体数据集中学习残基的共进化模式 | 
3. 核心组件
🔁 GFlowNet(生成器)
- 逐残基构建 CDR 序列。
- 每一步 = 基于当前状态选择下一个氨基酸。
- 学会偏好 奖励高 的序列。
🎯 奖励函数
两种模式:
| 模式 | 奖励函数 | 
|---|---|
| 自主探索 | 预训练的 PLM(ProGen2) | 
| 联合训练 | 专家组合(PoE)= PLM × 波兹曼模型 | 
4. 模型工作原理
🚀 [A] 新型 CDR 生成(无需训练数据)
GFlowNet → 生成序列 → PLM 评分 → 反馈奖励 → 重复
- PLM 评估生成序列的 “自然性”。
- 无需训练数据 —— 完全生成式。
🧪 [B] CDR 优化(借助训练数据)
GFlowNet ↔ PoE(PLM × 波兹曼模型)→ 通过对比散度联合训练
- GFlowNet 采样负样本。
- 波兹曼模型基于已知残基相互作用进行评分。
- PoE 奖励引导 GFlowNet 有效探索抗体空间。
5. 训练流程
起始序列 → 添加残基 → 重复直至完整 → 获取奖励 → 更新 GFlowNet
                                               ↑
                                 奖励 = 仅 PLM(或)PLM × 波兹曼模型
- GFlowNet 采用 轨迹平衡损失 进行训练
- PoE 采用 对比散度 进行训练
6. 输出
| 输出 | 描述 | 
|---|---|
| ✅ 抗体序列 | 完整的 CDR-H1/H2/H3 序列 | 
| ✅ 高奖励 | 自然、共进化、多样化 | 
| ✅ 结构合理性 | 经 AlphaFold-Multimer 验证 | 
7. 关键优势
- 🔄 有无训练数据均可工作
- 🌐 平衡 全局(PLM) 和 局部(波兹曼模型) 约束
- 🎨 促进 多样化、新颖 的 CDR 候选序列生成
需要我为你制作一个符合此说明的 可视化模块图 吗?

分成了两种模式
🧪 PG-AbD 中的 两种训练模式
带 FiLM 的模式(模板引导生成)
- 应用场景:特定抗原的抗体设计。
- 监督方式:并非经典的监督学习,而是基于已知模板的 调节。
- 调节机制:FiLM 模块注入已知模板序列(例如,已知可结合特定抗原的抗体),以引导 GFlowNet 的生成路径。
- 工作方式:GFlowNet 仍然逐残基采样序列,但 模板有助于引导其朝向搜索空间中理想的区域。
不带 FiLM 的模式(自主探索)
- 应用场景:从头设计新型抗体。
- 监督方式:完全无监督 —— GFlowNet 从零开始探索序列空间。
- 奖励来源:唯一的监督信号来自 预训练的 PLM 或 PoE 奖励。
- 生成方式:不注入任何模板;GFlowNet 仅基于奖励信号 学习生成序列。
✅ 总结
| 模式 | 是否使用 FiLM | 是否需要模板 | 是否监督 | 
|---|---|---|---|
| 模板引导模式 | ✅ 是 | ✅ 是 | ❌ 非直接监督(仅调节) | 
| 自主探索模式 | ❌ 否 | ❌ 否 | ❌ 完全无监督 | 
如果需要针对这两种情况的代码逻辑或架构修改,请随时告知。

🧩 理解符号含义
- x₀ → x₁ → x₂ → ... → x₆:这些是中间状态 —— GFlowNet 逐步构建的部分抗体序列。
- t₀, t₁, t₂, t₃, t₄, t₅:这些是 终止状态(即完整长度的抗体序列),由不同的生成轨迹产生。
🔁 多路径导致相同或不同终点
GFlowNet 将生成过程建模为一个有向无环图(DAG):
- 
多条路径(轨迹)可以通向不同的终止状态。 
- 
例如: x₀ → x₃ → x₆ → t₄ x₀ → x₃ → x₆ → t₃ x₀ → x₃ → x₆ → ?
每个 tᵢ 是一个最终生成的抗体候选序列,将由 奖励函数(PLM 或 PoE)进行评分。GFlowNet 学会 按奖励比例生成序列,即高质量序列更可能被采样。
📌 总结
| 符号 | 含义 | 
|---|---|
| xᵢ | 中间部分序列(状态) | 
| tᵢ | 最终完整序列(终止状态) | 
| Reward(tᵢ) | 该最终序列的质量,用于训练 GFlowNet | 
| π(tᵢ) ∝ reward(tᵢ) | GFlowNet 学会使生成频率与奖励相匹配 | 
如果需要,我可以为这个图添加标注,使其视觉上更清晰。
树形的结构
✅ 总结:
x₀ → x₃ → x₆ → t₄
x₀ → x₃ → x₆ → t₃
这是 GFlowNet 生成的 两条不同轨迹。
每条轨迹:
- 从 初始状态 x₀(空白或起始序列)开始,
- 经过若干 中间部分序列(x₃、x₆等),
- 最终到达一个 终止状态 tᵢ—— 即 完整抗体序列。
🔁 为何有多条轨迹?
因为 GFlowNet 在抗体序列空间上构建了一个 有向无环图(DAG):
- 多条路径(轨迹)可以通向 相同或不同的最终序列。
- 这使得模型能够 学习整个序列分布,而不仅仅是一个贪婪选择。
🔍 每条路径发生了什么?
对于每条完整轨迹 τ = (x₀ → ... → tᵢ):
- GFlowNet 使用其策略网络 采样 此路径。
- 得到 最终序列 tᵢ。
- 用 奖励函数(PLM 或 PoE)对 tᵢ评分。
- GFlowNet 通过 轨迹平衡损失 进行训练,以匹配:
🧠 直观理解
可以将 GFlowNet 视为 学习如何在序列构建树中沿路径行走,其中:
- 每次行走通向一个可能的完整抗体。
- 抗体质量越高(基于奖励),网络就越学会在未来进行类似的行走。
需要一张简化图来展示多条轨迹如何通向不同终止状态并带有奖励吗?
🧬 FiLM 在 PG-AbD 框架中的工作原理
🔁 回顾:GFlowNet 的工作内容
- GFlowNet 采样 众多可能轨迹(在抗体序列空间中的路径)。
- 每条轨迹生成一个 终止序列 tᵢ,随后由奖励函数进行评分。
🎛️ FiLM 的作用
FiLM 利用已知模板调节生成过程(例如,已知可结合抗原的 CDR 序列)。
🔧 机制(见图 2(b) 右下角):
- 
两个编码器: - 一个用于 当前状态(例如,x₃ → x₆)
- 一个用于 模板序列(例如,已知抗体示例)
 
- 一个用于 当前状态(例如,
- 
FiLM 借助模板对内部隐藏表示进行 调节(缩放和平移)(通过 mul和add操作)。
- 
调节后的结果传递给 解码器,解码器预测下一个标记 / 残基或最终序列分数。 
🚦 对轨迹的影响
- 
不使用 FiLM: GFlowNet 仅在奖励引导下自由探索。 
- 
使用 FiLM: GFlowNet 向 与模板相似的序列空间区域 倾斜,助力其 聚焦 探索(例如,用于特定抗原设计)。 
🧠 类比
想象 GFlowNet 正在探索一个巨大的迷宫(抗体序列空间)。
- 
奖励函数告知其 “优质出口” 的位置。 
- 
FiLM 则像一个 提示,表示: “朝着与这一其他成功路径(模板)相似的方向开始行走。” 
🧩 总结表格
| 组件 | 作用 | 
|---|---|
| GFlowNet | 在序列空间中采样众多轨迹 | 
| 奖励(PLM / PoE) | 为完整序列(终止状态)打分 | 
| FiLM | 利用模板调节轨迹生成过程 | 
如果需要,我可以为图中的 FiLM 部分添加标注,以突出显示这种相互作用。
t4
可以,在这张图中,t₄ 很可能是 t₃、t₄ 和 t₅ 中的最佳序列。
从图中可以看出:
🔍 图中的线索
- 
回报景观(3D 图) : - t₄ 位于回报曲面上的 最高峰值 处。
- 这表明它具有 最高的回报(即根据 PLM/PoE 最佳)。
 
- 
指向 PLM(右上角)的箭头 : - 路径 x₀→x₃→x₆→t₄ 被传递给冻结的 PLM 进行评分。
- 标签 π(t₄)∝reward(t₄) 意味着 GFlowNet 正在接受训练以更频繁地青睐这条路径。
 
- 
FiLM 路径聚焦 : - 底部的 FiLM 模块计算出的调制以 t₄ 结尾,引导 GFlowNet 的生成过程到达 t₄。
 
✅ 结论
是的,在这个可视化中,t₄ 是 回报最高(即最佳)的终端状态,PG-AbD(通过 FiLM 和 GFlowNet)正在学习在训练过程中 更倾向于这条路径 。
如果需要,我可以帮你用高亮和箭头标注这张图来展示这种关系。
模版辅助
非常好,这个问题很有深度。这个 FiLM 模块 并不是输入两条轨迹 ,它输入的是:
- 一条 模板轨迹 (橙色,例如 “x₀→x₃→x₆→t₃”)
- 一条 正在进行或新轨迹 (蓝色,例如 “x₀→x₃→x₆→?”)
这两条轨迹并不是对等的,而是:
- 一条是 条件参考 (模板序列),
- 一条是正在被调制的 当前状态 (在生成中)。
🔬 FiLM 模块拆解:输入 → 输出
✅ 输入
- 
模板轨迹 : - 序列:“x₀→x₃→x₆→t₃”
- 经编码并传过 linear层 → 得到调制 缩放 和 平移 向量。
 
- 
目标部分序列 : - 目前的序列:“x₀→x₃→x₆”
- 被编码为要 调制 的向量。
 
⚙️ 内部计算
| 步骤 | 操作 | 描述 | 
|---|---|---|
| 🔸 template → encoder → linear | 生成两个特征向量:“γ”(缩放)和 “β”(平移) | |
| 🔹 target → encoder | 获取当前序列嵌入 “h” | |
| 🔁 h → h * γ + β | 按特征调制(“乘” + “加”) | |
| 📤 → decoder | 调制后的嵌入被解码为下一步预测或终端状态 “t₄” | 
这是经典的 FiLM 条件化 :
🎯 输出
- 调制后的隐藏状态 被解码为预测的下一个残基或整个终端序列 “t₄”。
🧠 直观理解
模板序列通过 缩放和平移目前已构建部分的隐藏表示 来帮助引导新抗体序列的生成。
所以,FiLM 模块使 PG-AbD 能够 将生成轨迹偏向理想的模板 ,而不是直接复制它们。
需要这个模块的并排伪代码或带注释的版本吗?
 
                    
                
 
                
            
         浙公网安备 33010602011771号
浙公网安备 33010602011771号