从文本到画面：AI生图 + 图生视频 Prompt 工程全攻略（一）

前言
最近博主在练习使用AI生图和图生视频，有所感悟，遂写文。

注：本文生图AI以Seedream 4.5 为例，图生视频AI以可灵为例；Prompt示例以英文为主。

一、为什么Prompt满分却得不到想要的呈现效果？

负面提示缺失 → 画面"跑题"概率指数级上升
模型优先读"参考图"，再读"提示词"
图生视频：方向性、时序性、空间概念在连续帧里会被二次解读

二、英文Prompt

用英文写作Prompt会更稳，原因如下：

Token 切割更友好
Seedream 4.5 底层跟大多数扩散模型一样，先用 CLIP/Tokenizer 把提示词切成 token。英文天然带空格，切分边界清晰；中文一句话会被切成 1～3 个字符的小碎片，容易丢语义。同样 75 个 token，英文能塞下 60 多个有效概念，中文可能只剩 30 来个，细节一多就被“截断”。
训练语料偏英文
开源 LAION-5B、Pixar 官方数据集、3D-cartoon 标签 90% 都是英文标注。模型对 “subsurface scattering”“rim light”“depth of field” 这类词有强关联；翻成“次表面散射”“边缘光”“景深”后，权重反而下降，出图效果打折。
社区验证样本多
目前 Civitai、Discord 和 Hugging Face 上能搜到的 Seedream 4.5 高质量样图，90% 以上用英文提示词。

如果更习惯中文，也可以使用中文提示词，只要稍加一些技巧：
长句拆短句，用分号或换行代替逗号堆叠，减少 tokenizer 误判。
关键材质、光影、构图词保留英文（或中英混排），例如“柔和的 rim-light”“ pastel 配色”，让模型同时吃到两种语言的高权重。

三、正面提示词和负面提示词（Positive Prompt & Negative Prompt）

Positive —— 要什么
Negative ——不要什么
双剑合一，天下无敌
大多数prompt只描述出想要的画面，没有指出图片中不可以包含什么。导致模型把训练集里的高频缺陷（多手指、过曝、水印）当成“合理”结果；Negative 相当于把这些方向反向减掉，画面立刻干净。

写 Negative 的 3 个角度

角度1：结构错误
extra limbs, extra fingers, deformed, long neck, twisted anatomy
多余肢体，多余手指，畸形，长颈，扭曲的解剖结构
角度2：画质错误
lowres, blurry, overexposed, noisy, jpeg artifacts
低分辨率、模糊、曝光过度、噪点、JPEG伪影

角度3：元素污染
watermark, text, logo, signature, username, frame, border
水印、文字、徽标、签名、用户名、边框、边界

权重小方法

加重：
(extra limbs:1.3) 表示对“多肢”惩罚再狠 30%。
减轻：
(blurry:0.8) 表示对“模糊”容忍度提高 20%，适合刻意做景深。
整句屏蔽：
“(no distorted perspective:1.2)” 可用来强制消除透视畸形。
一句话总结：
数值 > 1 → 加大反向拉力（惩罚更狠）；
数值 < 1 → 减小反向拉力（容忍度提高

四、AI生图 Prompt「三阶公式」

主体 + 材质/风格 + 光影 + 构图 + 分辨率 + 负面提示

主体：用"形容词+名词"堆叠，最多3层
示例：a futuristic cyber-punk male pilot（一位未来主义赛博朋克男飞行员）
材质/风格：直接给模型"范式"
cel-shaded, 8-bit pixel, oil-painting, Studio Ghibli style（卡通渲染，8位像素画风，油画质感，吉卜力工作室风格）
光影：告诉模型"灯位"
rim light from behind, 45° warm key light（后方轮廓光，45°暖调主光）
构图：一句话锁定相机
medium shot, low-angle, rule of thirds（中景，低角度，三分法构图）
分辨率：与平台对齐
4K, 8K, 300 dpi（DPI：每英寸点数）
负面提示：反向封印
low-res, extra limbs, text, watermark, distorted（低分辨率、多余肢体、文字、水印、变形）

五、图生视频 Prompt「五维控制」

时长 = 运动预算
想"长推镜"→给足6 s；5 s以内模型会"偷工减料"
首帧锚定
上传一张已验证的静帧作为Image Reference，画面先验被锁死
关键动作"拆秒"
按0-1 s、1-3 s、3-6 s写清关键姿态，避免整段描述
空间坐标用"camera-left/right"
少写"left"单字，防止与观众坐标混淆
负面提示再压一次
把"抖动、闪白、变形、切镜"写进Neg，连续帧稳定性+40%

六、完整模板实例

生图

Positive: 「1 boy, cowboy shot, silver hair, leather jacket, city night, neon reflections, cinematic lighting, ultra-detailed, 8K, anatomically correct hands, perfect proportions, clean image without any watermark or text」
Negative: 「extra limbs, extra fingers, deformed, long neck, blurry, lowres, jpeg artifacts, watermark, text, logo, cropped, worst quality, duplicate hands, mutated anatomy」

正向描述：「1名男孩，牛仔镜头，银发，皮夹克，城市夜景，霓虹倒影，电影级光影，超精细细节，8K画质，解剖学准确的手部，完美比例，无水印无文字的纯净画面」
负向描述：「多余肢体、多余手指、变形、长颈、模糊、低分辨率、JPEG伪影、水印、文字、标识、裁剪、最差画质、重复手部、解剖结构畸变」

图生视频

Positive 「starting from the exact frame: silver-haired boy in leather jacket stands in neon-soaked alley, slow dolly-in 15% + 5° upward tilt, subtle wind lifts her hair, glowing particles drift, background bokeh pulses twice, 24 fps, cinematic depth of field, smooth stabilization, ultra-detailed, 4K, ProRes 422, 8-second clip, no cut, no transition」
Negative 「extra limbs, jerky motion, sudden zoom, frame tear, overexposure flicker, morphing anatomy, watermark, text, logo, jump cut, motion blur artifact」

正向描述：「精确起始帧：银发少男身着皮夹克伫立霓虹浸染的巷子，15%慢推镜头+5°向上倾斜，微风轻拂发丝，流光粒子飘散，背景虚化两度脉动，24帧/秒，电影级景深，流畅防抖，超精细画质，4K分辨率， ProRes 422格式，8秒无剪辑无转场镜头」
负向描述：「肢体错位、动作生硬、突兀变焦、画面撕裂、过曝闪烁、变形解剖结构、水印、文字、标识、跳剪、运动模糊伪影」

常见疑问

Q：Negative 越长越好吗？
A：超过 150 token 反而稀释注意力；保持 50–100 token 即可。

Q：把 Negative 全关掉，手指仍然正常？
A：这次用的模型版本或采样方法可能碰巧刚刚好，没有出现问题。保险起见，还是把 extra fingers 放在 Negative 最前面再加权重 (extra fingers:1.2)，让模型每次都能“看见”并避开多指问题。

Q：可以写中文吗？
A：WebUI 会自动翻译，但英文词库更全，建议中英混用：「extra fingers, 多手指」。

Positive -->“好不好看”，Negative --> “能不能看”。
可以先把负面 prompt 填满，再按回车。

示例prompt生成的图片

下面两组图分别是使用完全prompt和只有positive prompt生成了3张图片。
可以看到完全prompt图片比较理想，只有positive prompt的图片可能出现背景色彩不够丰富、多手指、服装元素不够（没有帽子）的缺点。

参考文献

[1] 搜狐科技. 同一个问题中文和英文提问，哪个回答更好？实测对比来了[EB/OL]. (2023-05-29)[2026-01-10].
https://m.sohu.com/a/718464295_104036.

token计算工具：Tokenizer - OpenAI API
AI工具：LiblibAI

🗓️ 文章信息

更新日期：2026年01月11日

当前版本：v1.0

分类：技术博客

关键词：AI绘画、AI视频、Prompt工程、AIGC、可控生成、可灵、Stable Diffusion、Runway

原创声明

本文为作者原创，版权归作者所有。原文于 2026年01月11日同步发布于 CSDN、博客园、稀土掘金、51CTO、知乎。

欢迎学习与分享，但请尊重原创，转载请保留署名与出处。

未经许可，禁止用于商业用途或二次发布。

posted @ 2026-01-11 15:24 Jessica837488 阅读(7) 评论(0) 收藏举报

刷新页面返回顶部

jessica837488