Z-Image: An Efficient Image Generation Foundation Model with Single-Stream Diffusion Transformer

4.3. 预训练Z-Image 采用流匹配目标函数 [44, 48] 进行训练:首先通过高斯噪声
x
0

与原始图像
x
1

的线性插值构造带噪输入,即
x
t

=t⋅x
1

+(1−t)⋅x
0

;随后训练模型预测定义二者间路径的向量场的速度(即
v
t

=x
1

−x
0

)。训练目标可表示为:
L=E
t,x
0

,x
1

,y

[∥u(x
t

,y,t;θ)−(x
1

−x
0

)∥
2
],(1)
其中
θ
是可学习参数,
y
是条件嵌入。我们参考 SD3 [18],采用 logit - 正态噪声采样器将训练过程集中在中间时间步。此外,为应对多分辨率训练设置下信噪比(SNR)的波动,我们借鉴 Flux [34] 所使用的动态时间偏移策略,确保不同图像分辨率下的噪声水平得到合理缩放,从而提升训练效果。Z-Image 的预训练大致分为两个阶段:低分辨率预训练和全尺度预训练。

posted on 2025-12-15 18:09  张博的博客  阅读(8)  评论(0)    收藏  举报

导航