WAN2.1文本转视频模型参数调优指南
WAN2.1 参数扫描
近期对某机构的WAN2.1文本转视频模型进行了探索。与大多数图像和视频生成模型一样,WAN模型拥有许多输入参数,每个参数都可能对生成输出的质量产生深远影响。
调整这些神秘的输入参数会发生什么?让我们一探究竟。
实验设计
实验旨在观察引导系数和偏移输入参数如何影响输出。实验使用了WAN2.1 14b文本转视频模型,分辨率为720p。
为此,进行了一项“参数扫描”实验,系统地测试不同输入值的组合,以理解它们对输出的影响。为每一对引导系数和偏移值的组合生成了视频,同时保持所有其他参数不变。
在所有生成的视频中,以下输入参数保持一致:
- 提示词: “夜晚,一位微笑的女子在伦敦行走”
- 随机种子: 42
- 帧数: 81
- 采样步数: 30
然后仅调整以下两个输入参数,对一系列数值进行测试:
- 引导系数: 从 0 到 10
- 偏移值: 从 1 到 9
如果想自行运行类似实验,已将用于生成这些参数扫描的代码分享在GitHub上。
什么是引导系数?
可以将引导系数理解为“创造力与服从性”的调节旋钮。
- 当
guide_scale=0时,模型会忽略你的提示词。 - 随着数值增加,模型会更努力地匹配你的提示词。
- 较低的值: 赋予模型更多创作自由。
- 较高的值: 导致对提示词更字面的解读。
下图展示了将其从0调整到10时的变化:
什么是偏移值?
偏移值控制模型在去噪过程中的推进方式,影响视频中的运动和时间流动。它基本上控制着生成视频的“时间流”。
- 较低的值: 运动更平滑、更可预测。
- 较高的值: 运动更具动态感,但有时会显得混乱。
下图展示了将偏移值从1调整到9时的变化:
实验观察
关于引导系数:
guide_scale=0: 输出非常奇特但有趣。有创意,但与提示词几乎无关。guide_scale=1-2: 出现奇怪的伪影,尤其是在女子嘴部周围。guide_scale=3-7: :backhand_index_pointing_left: 最佳范围。看起来自然,问题最少。guide_scale=8+: 可怕的“AI感”开始显现——那种过度处理、发亮的皮肤,明显是AI制作的痕迹。
建议:寻求奇特创意效果时使用0,追求逼真结果时使用3-7,除非想要那种AI光泽感,否则避免使用8及以上。
关于偏移值(均在 guide_scale=5 条件下测试):
shift=1: 产生酷炫的“滑动变焦效果”,背景扭曲但人物看起来真实。shift=3-6: 显示不同的女性(不同肤色,均为深色头发)位于画面左侧,视角更为广阔。shift=7-9: 持续显示一位金发女性位于画面右侧,这些数值下的结果出奇地相似。
总体而言,较高的偏移值往往看起来效果更好,但其差异比引导系数的变化更为微妙。
为何这很重要
正确设置这些参数,是区分业余水平视频与近乎专业水准视频的关键。
大多数人只是使用默认参数,但了解如何调整这些参数可以让你对输出结果有更强的控制力。
现在,你不再需要猜测了。
是否有其他想了解的参数?请告诉我们!
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)
公众号二维码

公众号二维码


浙公网安备 33010602011771号