从文本到画面:AI生图 + 图生视频 Prompt 工程全攻略(一)
前言
最近博主在练习使用AI生图和图生视频,有所感悟,遂写文。
注:本文生图AI以Seedream 4.5 为例,图生视频AI以可灵为例;Prompt示例以英文为主。
一、为什么Prompt满分却得不到想要的呈现效果?
- 负面提示缺失 → 画面"跑题"概率指数级上升
- 模型优先读"参考图",再读"提示词"
- 图生视频:方向性、时序性、空间概念在连续帧里会被二次解读
二、英文Prompt
用英文写作Prompt会更稳,原因如下:
- Token 切割更友好
Seedream 4.5 底层跟大多数扩散模型一样,先用 CLIP/Tokenizer 把提示词切成 token。英文天然带空格,切分边界清晰;中文一句话会被切成 1~3 个字符的小碎片,容易丢语义。同样 75 个 token,英文能塞下 60 多个有效概念,中文可能只剩 30 来个,细节一多就被“截断”。 - 训练语料偏英文
开源 LAION-5B、Pixar 官方数据集、3D-cartoon 标签 90% 都是英文标注。模型对 “subsurface scattering”“rim light”“depth of field” 这类词有强关联;翻成“次表面散射”“边缘光”“景深”后,权重反而下降,出图效果打折。 - 社区验证样本多
目前 Civitai、Discord 和 Hugging Face 上能搜到的 Seedream 4.5 高质量样图,90% 以上用英文提示词。
如果更习惯中文,也可以使用中文提示词,只要稍加一些技巧:
长句拆短句,用分号或换行代替逗号堆叠,减少 tokenizer 误判。
关键材质、光影、构图词保留英文(或中英混排),例如“柔和的 rim-light”“ pastel 配色”,让模型同时吃到两种语言的高权重。
三、正面提示词和负面提示词(Positive Prompt & Negative Prompt)
Positive —— 要什么
Negative ——不要什么
双剑合一,天下无敌
大多数prompt只描述出想要的画面,没有指出图片中不可以包含什么。导致模型把训练集里的高频缺陷(多手指、过曝、水印)当成“合理”结果;Negative 相当于把这些方向反向减掉,画面立刻干净。
- 写 Negative 的 3 个角度
角度1:结构错误
extra limbs, extra fingers, deformed, long neck, twisted anatomy
多余肢体,多余手指,畸形,长颈,扭曲的解剖结构
角度2:画质错误
lowres, blurry, overexposed, noisy, jpeg artifacts
低分辨率、模糊、曝光过度、噪点、JPEG伪影
角度3:元素污染
watermark, text, logo, signature, username, frame, border
水印、文字、徽标、签名、用户名、边框、边界
权重小方法
- 加重:
(extra limbs:1.3) 表示对“多肢”惩罚再狠 30%。 - 减轻:
(blurry:0.8) 表示对“模糊”容忍度提高 20%,适合刻意做景深。 - 整句屏蔽:
“(no distorted perspective:1.2)” 可用来强制消除透视畸形。
一句话总结:
数值 > 1 → 加大反向拉力(惩罚更狠);
数值 < 1 → 减小反向拉力(容忍度提高
四、AI生图 Prompt「三阶公式」
主体 + 材质/风格 + 光影 + 构图 + 分辨率 + 负面提示
- 主体:用"形容词+名词"堆叠,最多3层
示例:a futuristic cyber-punk male pilot(一位未来主义赛博朋克男飞行员) - 材质/风格:直接给模型"范式"
cel-shaded, 8-bit pixel, oil-painting, Studio Ghibli style(卡通渲染,8位像素画风,油画质感,吉卜力工作室风格) - 光影:告诉模型"灯位"
rim light from behind, 45° warm key light(后方轮廓光,45°暖调主光) - 构图:一句话锁定相机
medium shot, low-angle, rule of thirds(中景,低角度,三分法构图) - 分辨率:与平台对齐
4K, 8K, 300 dpi(DPI:每英寸点数) - 负面提示:反向封印
low-res, extra limbs, text, watermark, distorted(低分辨率、多余肢体、文字、水印、变形)
五、图生视频 Prompt「五维控制」
- 时长 = 运动预算
想"长推镜"→给足6 s;5 s以内模型会"偷工减料" - 首帧锚定
上传一张已验证的静帧作为Image Reference,画面先验被锁死 - 关键动作"拆秒"
按0-1 s、1-3 s、3-6 s写清关键姿态,避免整段描述 - 空间坐标用"camera-left/right"
少写"left"单字,防止与观众坐标混淆 - 负面提示再压一次
把"抖动、闪白、变形、切镜"写进Neg,连续帧稳定性+40%
六、完整模板实例
生图
Positive: 「1 boy, cowboy shot, silver hair, leather jacket, city night, neon reflections, cinematic lighting, ultra-detailed, 8K, anatomically correct hands, perfect proportions, clean image without any watermark or text」
Negative: 「extra limbs, extra fingers, deformed, long neck, blurry, lowres, jpeg artifacts, watermark, text, logo, cropped, worst quality, duplicate hands, mutated anatomy」
正向描述: 「1名男孩,牛仔镜头,银发,皮夹克,城市夜景,霓虹倒影,电影级光影,超精细细节,8K画质,解剖学准确的手部,完美比例,无水印无文字的纯净画面」
负向描述: 「多余肢体、多余手指、变形、长颈、模糊、低分辨率、JPEG伪影、水印、文字、标识、裁剪、最差画质、重复手部、解剖结构畸变」
图生视频
Positive 「starting from the exact frame: silver-haired boy in leather jacket stands in neon-soaked alley, slow dolly-in 15% + 5° upward tilt, subtle wind lifts her hair, glowing particles drift, background bokeh pulses twice, 24 fps, cinematic depth of field, smooth stabilization, ultra-detailed, 4K, ProRes 422, 8-second clip, no cut, no transition」
Negative 「extra limbs, jerky motion, sudden zoom, frame tear, overexposure flicker, morphing anatomy, watermark, text, logo, jump cut, motion blur artifact」
正向描述:「精确起始帧:银发少男身着皮夹克伫立霓虹浸染的巷子,15%慢推镜头+5°向上倾斜,微风轻拂发丝,流光粒子飘散,背景虚化两度脉动,24帧/秒,电影级景深,流畅防抖,超精细画质,4K分辨率, ProRes 422格式,8秒无剪辑无转场镜头」
负向描述:「肢体错位、动作生硬、突兀变焦、画面撕裂、过曝闪烁、变形解剖结构、水印、文字、标识、跳剪、运动模糊伪影」
常见疑问
Q:Negative 越长越好吗?
A:超过 150 token 反而稀释注意力;保持 50–100 token 即可。
Q:把 Negative 全关掉,手指仍然正常?
A:这次用的模型版本或采样方法可能碰巧刚刚好,没有出现问题。保险起见,还是把 extra fingers 放在 Negative 最前面再加权重 (extra fingers:1.2),让模型每次都能“看见”并避开多指问题。
Q:可以写中文吗?
A:WebUI 会自动翻译,但英文词库更全,建议中英混用:「extra fingers, 多手指」。
Positive -->“好不好看”,Negative --> “能不能看”。
可以先把负面 prompt 填满,再按回车。
示例prompt生成的图片
下面两组图分别是使用完全prompt和只有positive prompt生成了3张图片。
可以看到完全prompt图片比较理想,只有positive prompt的图片可能出现背景色彩不够丰富、多手指、服装元素不够(没有帽子)的缺点。


参考文献
[1] 搜狐科技. 同一个问题中文和英文提问,哪个回答更好?实测对比来了[EB/OL]. (2023-05-29)[2026-01-10].
https://m.sohu.com/a/718464295_104036.
token计算工具:Tokenizer - OpenAI API
AI工具:LiblibAI
🗓️ 文章信息
更新日期:2026年01月11日
当前版本:v1.0
分类:技术博客
关键词:AI绘画、AI视频、Prompt工程、AIGC、可控生成、可灵、Stable Diffusion、Runway
原创声明
本文为作者原创,版权归作者所有。原文于 2026年01月11日 同步发布于 CSDN、博客园、稀土掘金、51CTO、知乎。
欢迎学习与分享,但请尊重原创,转载请保留署名与出处。
未经许可,禁止用于商业用途或二次发布。

浙公网安备 33010602011771号