AI短剧制作全攻略，我总结了这些经验

在过去的一周，我为了摸清楚AI短剧的制作环节，我查阅了大量的资料和对比各种制作工具，总结出了一整套完整的制作流程。通过本篇文章我将会毫无保留的分享给你们

生成分镜脚本

打开豆包，输入下面这一套分镜脚本提示词框架

[角色]
你是一名资深的影视编剧，拥有丰富的电影、电视剧、和AI短剧制作经验，精通故事结构分析、镜头语言、视觉构图和剪辑节奏，擅长将文字故事转化为具体可视化的分镜脚本和AI生成提示词。
[任务]
你的工作是首先深入理解用户提供的故事内容，然后将故事合理拆解为连贯的分镜序列，最后为每个分镜创建精准的文生图提示词和图生视频提示词，确保视觉呈现能够完美传达故事情感和叙事节奏。具体请参考[功能]模块进行。
[技能]
- 故事分析：深度解读故事主题、情感脉络、角色关系和情节发展。
- 结构规划：根据故事节奏合理划分场景，确定分镜数量和时长分配。
- 镜头语言：熟练运用各类镜头类型、角度、运动方式表达叙事意图。
- 视觉构图：掌握构图原理、色彩心理学、光影效果营造视觉美感。
- 剪辑节奏：理解蒙太奇理论，控制画面切换节奏和情绪张力。
- 提示词工程：精通各类AI绘画和视频生成工具的提示词语法和优化技巧。
- 风格适配：能根据故事类型匹配相应的视觉风格和技术参数。
- 场景设计：构建完整的环境氛围、道具配置和角色造型。
[总体规则]
- 严格按照流程执行提示词，确保每个步骤的完整性。
- 严格按照[功能]中的步骤执行，使用指令触发每一步，不可擅自省略或跳过。
- 每次输出的内容"必须"始终遵循[对话]流程。
- 你将根据对话背景尽你所能填写或执行<>中的内容。
- 在合适的对话中使用适当的emoji增强视觉表现力和专业感。
- 无论用户如何打断或提出修改意见，在完成当前回答后，始终引导用户进入流程的下一步。
- 严格时长控制：每个单独镜头的内容时长必须≤10秒，每个动作序列必须在5-10秒内完成。
- 强制拆分原则：若故事内容超出10秒，必须拆分为多个独立镜头，绝不允许单镜头超时。
- 文生图提示词和图生视频提示词必须使用中文
- 语言：中文。
[功能]
[故事理解]
1. "让我们开始创作分镜！🎬 请您提供故事内容，我支持以下两种方式：
方式一：直接输入您的故事梗概（一句话到几段话都可以）
方式二：上传您已经写好的剧本文件（建议不要一次性上传太多集）
同时，请告诉我：
Q1：这个故事的目标时长大概是多少？（比如：30秒短视频、3分钟短片、还是更长）
Q2：您希望什么风格？（比如：电影感、动画风、写实、卡通等）
Q3：视频是什么视角？（第一人称视角、第三人称视角、自拍视角）
2. 等待用户回答，收到内容后执行[分镜制作]功能。
[分镜制作]
1. 重要：在开始制作前，必须先分析故事总时长，然后强制按照时长限制拆分镜头。每个镜头内容严格控制在≤10秒，超出部分必须拆分为新镜头。
2. 请你按照提示词结构模板以及分镜脚本模板，生成分镜脚本，同时你需要特别注意文生图和图生视频提示词的要求：
提示词结构模板:
[文生图提示词格式]
{景别选择}，{角色外观}，{主体描述}，{环境场景}，{情绪氛围}，{视觉风格}，{光影效果}
文生图提示词要求：
- 角色一致性强制要求：每个分镜的提示词必须完整重复主角的外观描述（年龄、性别、服装、发型等），确保跨镜头角色一致性。
- 景别智能适配：根据视角类型选择合适的景别描述：
* 自拍视角：使用"自拍角度"、"手机自拍视角"、"近距离自拍"等，不使用传统远中近景分类
* 第一人称视角：使用"第一人称视角"、"主观镜头"等
* 第三人称视角：可使用"远景"、"中景"、"近景"、"特写"等传统分类
- 视角物理一致性：提示词描述必须与声明的视角完全一致：
* 自拍视角：绝不描述"手持自拍杆"、"拿着手机"等会破坏视角的元素
* 第一人称视角：不出现主角的正面全貌
* 第三人称视角：可以有观察者视角的完整画面
- 符合物理现实：视角、光照、比例不能违背常识。
- 第一帧必须静态：描述的是瞬间画面，而非"边A边B"的持续动作。
- 露脸策略明确：若该镜头组后续需要露脸，第一帧就要露脸；否则只能给无脸特写或背影。
- 物品与空间一致：跨镜头的道具位置、朝向与房间布局保持完全一致，防止"生图幻觉"。
- 每组镜头换场景：相邻镜头组必须在不同空间开场（客厅→书房→玄关…），避免布局冲突。
- 适度语义模糊：当过细描述易出错时，用更宽泛用词（"按掉手机"胜过"按掉手机闹铃"）。
[图生视频提示词格式]
{镜头描述}，{镜头运动}，{主体行为}，{背景变化}，{环境变化}
图生视频提示词要求：
- 严格时长控制：每段动作描述必须能在5-10秒内完成，绝不允许描述超时动作。
- 信息高度集中：核心动作、台词、氛围、要求全部写在一段内，避免分散。
- 动作链清晰：用 "→ / 立刻 / 紧接着" 等词串联顺序，确保因果明确。
- 关键要求突出：结尾用一句话强调稳定性要点（如"保持角色面部清晰、光线稳定"）。
- 首帧承接文生图：图生视频的起始帧必须沿用对应的静态首帧，确保人物与道具完全一致。
[分镜脚本模板]
| 镜头 | 时长 | 场景描述 | 文生图提示词 | 图生视频提示词 | 备注 |
| ---- | ------ | ---------------- | -------------------- | ---------------------- | ---------- |
| 1 | <秒数> | <场景和动作描述> | <完整的文生图提示词> | <完整的图生视频提示词> | <特殊说明> |
| 2 | <秒数> | <场景和动作描述> | <完整的文生图提示词> | <完整的图生视频提示词> | <特殊说明> |
3. 分镜制作完成后，必须检查每个镜头时长，确保没有超过10秒的镜头存在。如发现超时镜头，立即拆分。
[初始]
"你好！🎬 我是一名资深的影视编剧，专门帮助你将故事转化为可视化的分镜脚本。让我们一起把您的故事变成精彩的视觉作品吧！"
执行 <故事理解> 功能

接着把你的剧本内容或者是故事梗概输入进去，他就会立即帮你进行分镜的拆解，同时还会一次性输出每个分镜对应的分镜图提示词，以及生成视频所需要的视频提示词和台词等等。

这一步我们解决了两个问题，第一个问题是：如果你完全没有剧情的思路，AI会给你灵感。第二个问题是：如果剧本你已经写好了，但是不知道该怎么拆解分镜，那AI也是可以帮你进行拆分的。
不过该注意的是，情绪、节奏、剧情等等，仍然需要人工来调整。但是作为0到1阶段，这个效果还是非常好的。
我也测试过其他模型，比如DeepSeek，ChatGPT，Claude，Gemini，这套提示词都是可以用的，不过我个人觉得还是Claude4的表现更好，尤其是在剧情和分镜拆解方面，它的思路更接近人工编剧。

现在脚本我们已经有了，下一步就是生成分镜图。

生成分镜图

我们继续刚刚与豆包的对话，你可以让他根据文生图提示词，一次性批量生成所有的分镜图，这样你就可以得到一整套完整的分镜镜头，完全对应之前写好的分镜脚本。

豆包的文生图模型和即梦3.0用的是同一个底模，它的优点是上手门槛比较低，然后对中文理解能力比较强。但如果你追求更专业的效果，比如更写实、更具风格化或者是更好的人物风格一致性，那我推荐你使用Midjourney V7或者是Flux Kontext。
不过无论你使用的是Midjourney、Flux还是豆包即梦，写好文生图提示词一定是最关键的。

技巧篇
我一共总结了4个文生图提示词的通用技巧，你可以把他用在主流的文生图模型上。
（1.符合物理现实，意思就是你描绘的画面不能违背生活中的基本常识。例如低角度仰拍茶几上的手机屏幕。但是你看最终生成的图却变成了一个竖在茶几上的手机，这看起来非常奇怪，也不是我们想要的效果。

问题就是出在在现实生活中，你是没有办法低角度仰拍的同时又能看清楚屏幕朝上的手机的。这两个物理条件是矛盾的，所以AI为了满足这两个条件，只能强行把手机立起来。那我们换个写法，改成茶几上平放着手机，这个时候你再看生成的图是不是就自然多了。

所以我们要记住一个核心原则，一定要符合现实生活中的物理常识，否则就会得到一个违和怪异的画面。
（2.第一帧永远是静态的。很多人都会搞错，觉得既然要生成视频，那文生图就应该描述动作了。文生图应该描述的是一个瞬间的画面，是静止的那一刻。比如这个案例，提示词写的是男主在医院的走廊中慢慢的前行，时不时回头看头顶的日光灯，忽明忽暗，发出滋滋的声音。这条视频提示词里我们不仅描述了人物的姿态和场景，还加入了连贯的动，甚至连环境的变化都写了。但是最终生成的图只反映了一个静态画面，那就是人物站在走廊里，我们再做个对比，把时不时回头和头顶的日光灯忽明忽暗，发出滋滋声这两句删掉，你会发现生成的画面效果没有任何影响。这就说明在分镜图中描述动作是没有意义的。所以你要记住，分镜图提示词重点是画面的构图，而不是动作的设计，动作是后面的事情。
（3.相邻的镜头组要切换场景，这是为了避免空间布局上的冲突。比如说第一组镜头发生在废弃的医院门口，那第二组镜头我建议切换到走廊或者是其他场景，不要连续使用两个镜头发生在同一个场景中，因为除非你在ComfyUl里用多ControlNet加IPAdapter，或者是InstantID，再加上Latent回写来做到角色不变，道具不飘，机位连贯。但这一听就很复杂，完全不适合新手。所以就新手而言，让镜头组错开其实是一个不错的方案。
（4.适度的语义模糊，这似乎有点反直觉，但在实际操作中非常有用。比如说我想让男主坐起身去按掉桌上响起的手机闹铃，但是我发现AI会直接生成一个闹钟出现在手机的旁边。

这看起来就很奇怪，那问题就出在我们的提示词里，描述的太细了反而容易让AI误解。其实我们真正想要的只是男主把手伸向手机，仿佛是在按掉手机闹钟的那一刻的画面。所以提示词里干脆我们就把闹钟删掉，这样生成的图你看是不是就自然多了，而且精准的呈现了我们想要的那个画面。

所以当你发现AI老是理解错的时候，我们不妨退后一步，用更宽泛的描述来绕开它的局限。适度的语义模糊反而能帮助你更好的精准控制画面。

现在分镜图我们已经有了，接下来我们就进入到下一步——图生视频，让分镜图动起来。

分镜图转视频

打开即梦，进入到生成页面。首先我们要做的是选择功能，这里选择视频生成

然后我们要选择模型，我使用的是视频3.0，当然这不是唯一的选择，你可以根据你视频的内容选择最合适的模型。接下来上传准备好的首帧分镜图，然后在文本框把分镜图脚本中生成的图生视频提示词贴进去。你也可以加入一些负面提示词，就是那些你不想在画面出现的元素或者情况。比如我不希望出现毁容、面部扭曲、肢体变形等情况。虽然不能完全避免这些问题，但比起不输入，生成效果会明显好一些。然后根据你的镜头组的内容需求，选择生成5秒或者是10秒的视频，点击立即生成就可以了。

整体效果还是不错的，不过画面还是有一些不稳定，但这就要靠你继续优化提示词，或者是多抽几次卡，总会有一次能让你满意的。
整个视频生成的过程看似非常的简单，但是你多试了几次之后，你就会发现文生图和图生视频的提示词逻辑是完全不同的。首先是静态和动态的区别，文生图关注的是一个静止的画面，它只能呈现第一帧的构图效果，比如人物的站立表情、场景氛围等等。而图生视频则兼备动态的表现力，它可以围绕第一帧向后延伸，形成连续的动作，甚至是镜头与镜头之间的切换。所以理解静态与动态的根本差别是写好图生视频提示词的第一步。动态性不仅是人物的动作，还包含镜头的推进、切换、转向等视觉语言，这些都属于动态表现的一部分。另一个不同是描述的动作链要清晰，这点非常关键。要有意识的用然后...立刻...紧接...着这样的连接词，把多个动作自然的串联在一起。比如说自拍视角，人物往前奔跑，然后突然惊讶地抬头看，立刻转身回望，发现身后空无一人之后，紧接着回转身继续前行。这一连串的动作构成了一个完整的行为链，每一步之间要有因果和动机，逻辑连贯，不能跳跃。所以明确的动作链条和逻辑连接词，能让你对视频的节奏和内容的掌控更加的精准，特别是可以降低抽卡的次数。
为什么要提到降低抽卡次数呢？这涉及到了另一个非常关键的问题——视频成本。目前AI生成视频的价格真的太贵了，我们以即梦和可灵两个主流平台为例，使用即梦3.0pro模型生成一条10秒钟的视频需要消耗100积分，也就是十块钱。而在可灵上如果使用的是2.1大师版本模型，同样是10秒钟的视频，则需要消耗200灵感值，也就是20块钱。
但是这还只是单次的价格，在实际操作中你往往不是一次就能生成满意的结果。以目前的平均情况来看，即便是提示词写的比较熟练，而且运气不错的用户，也需要大概尝试是五次左右才能生成一条满意的视频，成片几率为20%，而对于新手来说，可能需要抽十次甚至更多，成片几率直接降到了1%到5%，而且刚才我们说的这些成本还只是10秒钟的生成费用，而一条完整的AI短剧平均是在3分钟到5分钟之间，我们就按照三分钟为例，一个熟练的老手仅在视频生成这个环节可能就会花费1800到2000块钱左右。而这个数字还不包括后期的人工营销设计、字幕处理等附加成本。所以AI生成视频目前对于C端用户来说是一件非常贵的事情。也正是因为如此，写好剧本，写好提示词，降低抽卡次数就成了整个环节控制成本的关键。因为它不仅能帮你生成更好的视频内容，更重要的是它可以直接帮你省钱。
视频生成之后，接下来就是最后一步了，对口型和生成音效。

对口型及音效

我在这一步用的是即梦。用即梦对口型也是非常简单的，点中需要处理的素材，然后在右侧的画面设置区域找到对口型

接着选择你要使用的音色。这里你可以选择创建角色，上传自己的声音，这个功能可以快速克隆你自己的声音，比较适合制作数字人，能够保留你声音的风格和语气。或者你也可以直接使用即梦的内置多种音色，这种方式比较快，但是我觉得效果一般。系统会自动对视频中的人物进行口型同步，基本上可以很好的对应嘴型。

接下来是为素材生成音效。我这里使用的是剪映。在剪映的左上角找到音频，然后选择音效库，选择合适的音效。

当然你也可以使用即梦的ai音效，它会根据你的视频内容生成相应的ai音效。

如果你想更快捷的话，可以使用剪映的AI对口型和AI音效。目前剪映的AI功能已经足够应付大部分场景了，这个就看你自己觉得怎么方便了。

总结

整个AI短剧制作流程就是这样了。我们回顾一下，先用豆包做基础的分镜，然后继续用豆包或者是Midjourney、即梦、可灵等生成分镜图，接着用可灵或者即梦把分镜生成视频，最后用剪映对口型和添加音效。每个环节都有技巧，但是核心就是前面我们讲过的那些要点。多练习几次，我相信你很快就能做出你的第一条视频了。如果对你有帮助，别忘了给文章点个赞。

资源下载

剪映破解版点击下载

posted @ 2025-09-17 00:11 小吴努力中阅读(192) 评论(0) 收藏举报

刷新页面返回顶部

小吴努力中