从文本到画面:AI生图 + 图生视频 Prompt 工程全攻略(一)

前言
最近博主在练习使用AI生图和图生视频,有所感悟,遂写文。

注:本文生图AI以Seedream 4.5 为例,图生视频AI以可灵为例;Prompt示例以英文为主。

一、为什么Prompt满分却得不到想要的呈现效果?

  1. 负面提示缺失 → 画面"跑题"概率指数级上升
  2. 模型优先读"参考图",再读"提示词"
  3. 图生视频:方向性、时序性、空间概念在连续帧里会被二次解读

二、英文Prompt

用英文写作Prompt会更稳,原因如下:

  • Token 切割更友好
    Seedream 4.5 底层跟大多数扩散模型一样,先用 CLIP/Tokenizer 把提示词切成 token。英文天然带空格,切分边界清晰;中文一句话会被切成 1~3 个字符的小碎片,容易丢语义。同样 75 个 token,英文能塞下 60 多个有效概念,中文可能只剩 30 来个,细节一多就被“截断”。
  • 训练语料偏英文
    开源 LAION-5B、Pixar 官方数据集、3D-cartoon 标签 90% 都是英文标注。模型对 “subsurface scattering”“rim light”“depth of field” 这类词有强关联;翻成“次表面散射”“边缘光”“景深”后,权重反而下降,出图效果打折。
  • 社区验证样本多
    目前 Civitai、Discord 和 Hugging Face 上能搜到的 Seedream 4.5 高质量样图,90% 以上用英文提示词。

如果更习惯中文,也可以使用中文提示词,只要稍加一些技巧
长句拆短句,用分号或换行代替逗号堆叠,减少 tokenizer 误判。
关键材质、光影、构图词保留英文(或中英混排),例如“柔和的 rim-light”“ pastel 配色”,让模型同时吃到两种语言的高权重。

三、正面提示词和负面提示词(Positive Prompt & Negative Prompt)

Positive —— 要什么
Negative ——不要什么
双剑合一,天下无敌
大多数prompt只描述出想要的画面,没有指出图片中不可以包含什么。导致模型把训练集里的高频缺陷(多手指、过曝、水印)当成“合理”结果;Negative 相当于把这些方向反向减掉,画面立刻干净。

  • 写 Negative 的 3 个角度

角度1:结构错误
extra limbs, extra fingers, deformed, long neck, twisted anatomy
多余肢体,多余手指,畸形,长颈,扭曲的解剖结构
角度2:画质错误
lowres, blurry, overexposed, noisy, jpeg artifacts
低分辨率、模糊、曝光过度、噪点、JPEG伪影

角度3:元素污染
watermark, text, logo, signature, username, frame, border
水印、文字、徽标、签名、用户名、边框、边界

权重小方法

  • 加重:
    (extra limbs:1.3) 表示对“多肢”惩罚再狠 30%。
  • 减轻:
    (blurry:0.8) 表示对“模糊”容忍度提高 20%,适合刻意做景深。
  • 整句屏蔽:
    “(no distorted perspective:1.2)” 可用来强制消除透视畸形。
    一句话总结:
    数值 > 1 → 加大反向拉力(惩罚更狠);
    数值 < 1 → 减小反向拉力(容忍度提高

四、AI生图 Prompt「三阶公式」

主体 + 材质/风格 + 光影 + 构图 + 分辨率 + 负面提示

  1. 主体:用"形容词+名词"堆叠,最多3层
    示例:a futuristic cyber-punk male pilot(一位未来主义赛博朋克男飞行员)
  2. 材质/风格:直接给模型"范式"
    cel-shaded, 8-bit pixel, oil-painting, Studio Ghibli style(卡通渲染,8位像素画风,油画质感,吉卜力工作室风格)
  3. 光影:告诉模型"灯位"
    rim light from behind, 45° warm key light(后方轮廓光,45°暖调主光)
  4. 构图:一句话锁定相机
    medium shot, low-angle, rule of thirds(中景,低角度,三分法构图)
  5. 分辨率:与平台对齐
    4K, 8K, 300 dpi(DPI:每英寸点数)
  6. 负面提示:反向封印
    low-res, extra limbs, text, watermark, distorted(低分辨率、多余肢体、文字、水印、变形)

五、图生视频 Prompt「五维控制」

  1. 时长 = 运动预算
    想"长推镜"→给足6 s;5 s以内模型会"偷工减料"
  2. 首帧锚定
    上传一张已验证的静帧作为Image Reference,画面先验被锁死
  3. 关键动作"拆秒"
    按0-1 s、1-3 s、3-6 s写清关键姿态,避免整段描述
  4. 空间坐标用"camera-left/right"
    少写"left"单字,防止与观众坐标混淆
  5. 负面提示再压一次
    把"抖动、闪白、变形、切镜"写进Neg,连续帧稳定性+40%

六、完整模板实例

生图

Positive: 「1 boy, cowboy shot, silver hair, leather jacket, city night, neon reflections, cinematic lighting, ultra-detailed, 8K, anatomically correct hands, perfect proportions, clean image without any watermark or text」
Negative: 「extra limbs, extra fingers, deformed, long neck, blurry, lowres, jpeg artifacts, watermark, text, logo, cropped, worst quality, duplicate hands, mutated anatomy」

正向描述: 「1名男孩,牛仔镜头,银发,皮夹克,城市夜景,霓虹倒影,电影级光影,超精细细节,8K画质,解剖学准确的手部,完美比例,无水印无文字的纯净画面」
负向描述: 「多余肢体、多余手指、变形、长颈、模糊、低分辨率、JPEG伪影、水印、文字、标识、裁剪、最差画质、重复手部、解剖结构畸变」

图生视频

Positive 「starting from the exact frame: silver-haired boy in leather jacket stands in neon-soaked alley, slow dolly-in 15% + 5° upward tilt, subtle wind lifts her hair, glowing particles drift, background bokeh pulses twice, 24 fps, cinematic depth of field, smooth stabilization, ultra-detailed, 4K, ProRes 422, 8-second clip, no cut, no transition」
Negative 「extra limbs, jerky motion, sudden zoom, frame tear, overexposure flicker, morphing anatomy, watermark, text, logo, jump cut, motion blur artifact」

正向描述:「精确起始帧:银发少男身着皮夹克伫立霓虹浸染的巷子,15%慢推镜头+5°向上倾斜,微风轻拂发丝,流光粒子飘散,背景虚化两度脉动,24帧/秒,电影级景深,流畅防抖,超精细画质,4K分辨率, ProRes 422格式,8秒无剪辑无转场镜头」
负向描述:「肢体错位、动作生硬、突兀变焦、画面撕裂、过曝闪烁、变形解剖结构、水印、文字、标识、跳剪、运动模糊伪影」


常见疑问

Q:Negative 越长越好吗?
A:超过 150 token 反而稀释注意力;保持 50–100 token 即可。

Q:把 Negative 全关掉,手指仍然正常?
A:这次用的模型版本或采样方法可能碰巧刚刚好,没有出现问题。保险起见,还是把 extra fingers 放在 Negative 最前面再加权重 (extra fingers:1.2),让模型每次都能“看见”并避开多指问题。

Q:可以写中文吗?
A:WebUI 会自动翻译,但英文词库更全,建议中英混用:「extra fingers, 多手指」

Positive -->“好不好看”,Negative --> “能不能看”。
可以先把负面 prompt 填满,再按回车。

示例prompt生成的图片

下面两组图分别是使用完全prompt和只有positive prompt生成了3张图片。
可以看到完全prompt图片比较理想,只有positive prompt的图片可能出现背景色彩不够丰富、多手指、服装元素不够(没有帽子)的缺点。
用Positive和Negative prompt生成的图片
只用Positive prompt生成的图片

参考文献

[1] 搜狐科技. 同一个问题中文和英文提问,哪个回答更好?实测对比来了[EB/OL]. (2023-05-29)[2026-01-10].
https://m.sohu.com/a/718464295_104036.

token计算工具:Tokenizer - OpenAI API
AI工具:LiblibAI

🗓️ 文章信息

更新日期:2026年01月11日

当前版本:v1.0

分类:技术博客

关键词:AI绘画、AI视频、Prompt工程、AIGC、可控生成、可灵、Stable Diffusion、Runway

原创声明

本文为作者原创,版权归作者所有。原文于 2026年01月11日 同步发布于 CSDN、博客园、稀土掘金、51CTO、知乎。

欢迎学习与分享,但请尊重原创,转载请保留署名与出处。

未经许可,禁止用于商业用途或二次发布。

posted @ 2026-01-11 15:24  Jessica837488  阅读(7)  评论(0)    收藏  举报