图像生成-FUDUKI解读-FODUKI 训练 -18

参考

https://arxiv.org/pdf/2505.20147
image
image
现在来到了FUDOKI论文中关于模型训练(Training)的部分。这部分内容将前面所有的理论和架构知识串联起来,告诉我们这个强大的模型究竟是如何“炼成”的。

宏观策略:站在巨人肩膀上的两阶段训练

第一张截图开宗明义,FUDOKI的训练并非从零开始。它首先加载了一个强大的、预训练好的多模态模型 Janus-1.5B 的权重,然后在这个基础上,使用包含“文生图”(生成)和“图生文”(理解)任务的数据集进行进一步的微调。

为了让这个强大的预训练模型能够适应并精通我们全新的“离散流匹配”框架,作者设计了一个非常聪明的两阶段训练策略:

阶段一:“温柔”的适应性训练 (Adaptation)
目的:让已经习惯了自回归(AR)任务的Janus模型,快速、稳定地学会我们新的Flow Matching游戏规则。

操作:
冻结大部分参数:保持模型中像图像语义编码器(SigLIP)这样已经非常强大的“基础能力”部分不变。
只训练关键部分:集中所有计算资源,只微调核心的Transformer参数和新加入的适配器。

比喻:这就像教一位顶级的短跑运动员去学游泳。你不会让他忘记如何使用腿部力量(冻结基础能力),而是先让他集中精力学习手臂的划水动作和呼吸技巧(训练关键部分)。这样他能最快地入门,而不会因为不适应而导致动作畸形。

阶段二:全面的性能优化 (Full Fine-tuning)
目的:在模型已经适应了新规则后,释放其全部潜力,在所有任务上达到最佳表现。
操作:解冻所有参数,对整个模型进行端到端的微调。
比喻:当运动员掌握了游泳的基本要领后,你就可以让他进行全身协调性训练了,让他把跑步的腿部力量和游泳的手臂动作完美结合,最终成为一名顶级的“铁人三项”选手。

微观操作:单步训练的流程与损失函数

现在我们来看在一个训练批次(batch)中,具体发生了什么。
原文解读:第二张截图详细描述了单步训练的流程和损失函数(公式6)。

单步训练的清晰流程:

准备数据 \(x₁\):从数据集中随机抽取一个“目标答案”。例如,对于文生图任务,\(x₁\) 就是目标图像的离散Token序列。
随机采样时间 \(t\):在\([0, 1]\)之间随机选择一个时间点t
构造输入 \(x_t\):根据我们之前讨论过的“由度量引导的概率路径”\(p_t(x|x₁)\),从目标\(x₁\)出发,生成一个在t时刻被“腐蚀”了的版本\(x_t\)。这个\(x_t\)就是模型的输入。
模型预测:将\(x_t\)送入FUDOKI模型,模型会对序列中的每一个位置,都输出一个完整的概率分布(Logits),预测这个位置原本的、清晰的Token应该是什么。
计算损失 \(L_CE\) (公式6):
损失函数类型:这是一个标准的交叉熵\((Cross-Entropy)\)损失。
计算方式:对于序列中的每一个位置i,我们查看模型的输出,并问一个问题:“你为正确的答案\(x₁^i\)分配了多少概率?”
如果模型为正确答案分配的概率很高,那么损失就小。如果分配的概率很低,损失就大,模型就会受到“惩罚”。
最终的\(L_CE\)是整个序列所有位置损失的总和(或平均值)。
更新模型:通过反向传播这个损失,来更新模型的权重。

FUDOKI的核心优势:可修正的“流动” vs 固定的“填充”

图3的对比图,是理解FUDOKI相比传统离散扩散模型(如D-DIT, UniDisc)核心优势的关键。

传统方法: Mask-Based Discrete Diffusion (MDD)
工作方式:这种方法像是在做“完形填空”。它预测[MASK]位置应该填什么词,一旦填上(比如填了"panda"),这个词在后续的步骤中就被固定下来,作为已知信息去预测下一个[MASK]。
缺点:无法自我修正 (hinders self-correction)。如果模型在早期犯了一个错误,比如把“red panda”错误地预测成了“panda”,它就没有机会再回头修改这个错误了。
比喻:用永久性墨水玩填字游戏,写错了就没法改了。

FUDOKI的方法: Discrete Flow Matching (DFM)
工作方式:FUDOKI的每一步都是一次概率的“流动”,而不是一个确定的“填充”。模型在每一步都会重新评估整个序列。

优势:允许持续更新和自我修正。在某一步,一个Token可能从[MASK]流向了"panda"。但在后面的步骤中,随着其他Token变得越来越清晰,模型获得了更多的上下文信息,它可能会发现“不对,根据上下文,它更应该是'red panda'”,于是它会将概率从"panda"流向"red"和"panda"的组合。
比喻:用铅笔和橡皮擦玩填字游戏。你可以随时根据新解出的线索,回头修改之前不确定的答案,直到整个谜题完美解出。

posted @ 2025-08-01 10:46  jack-chen666  阅读(27)  评论(0)    收藏  举报