AI如何做一部视频
AI 如何做一部视频(实战记录:年会祝福片)
0. 概要(TL;DR)
这篇笔记记录一次「用 AI 快速做一支团队年会祝福视频」的实战过程:从需求澄清 → 剧本/分镜 → 角色与场景图生成 → 智能多帧生成视频 → 锁定片段迭代 → PR 后期合成与出片。
核心体会:先把“剧本 + 分镜 + 统一美术规则”定清楚,再去抽卡生成,效率和可控性会高很多。
1. 背景与目标
最近公司年会临近,领导希望我用 AI 做一个我们团队的祝福视频。此前我主要做的是文生图、图生图等内容,对「视频生成 + 后期」相对陌生,因此这次以“尽快交付、效果可用”为第一优先级。
1.1 目标(我当时的交付标准)
- 时长:约 30–90 秒(按现场播放节奏可调整)
- 风格:偏科技感/未来感,画面统一、节奏明确
- 内容:每位成员都有露脸/出镜,镜头间过渡自然
- 可交付:可直接播放的成片(带 BGM / 字幕可选)
1.2 约束与风险
- 时间紧:生成的迭代成本高,必须减少返工
- 一致性:人物脸、服装、风格、光照容易漂移
- 合规:人物肖像与音乐素材需要确保授权/许可
2. 工具与素材清单
这次为了快速落地,我优先选“成熟的一体化产品”,减少工程搭建成本。
2.1 主要工具链
| 环节 | 工具/能力 | 我用它做什么 |
|---|---|---|
| 剧本/旁白草稿 | ChatGPT(LLM) | 出脚本、镜头描述、转场建议 |
| 画面生成 | 即梦 AI(图片生成) | 场景图、人物在特定场景的画面 |
| 视频生成 | 即梦 AI(视频生成) | 用“智能多帧”拼成长镜头/连贯片段 |
| 后期剪辑 | Adobe Premiere Pro(PR)等 | 配乐、节奏剪辑、补镜头、导出 |
相关延伸:如果你偏“可控性/可复现”,也可以走
Stable Diffusion + ControlNet的路线(见:[[ControNet基础学习]]、[[ControlNet学习实战1--字体海报]]、[[Stable_diffusion入门学习]])。
2.2 素材准备(强烈建议先准备)
- 每位成员的清晰全身照(正面、光照均匀、无遮挡)
- 可选:半身近景/证件照角度(用于人脸一致性)
- 团队 Logo / 标语 / 年会主题文案(片头片尾用)
- BGM 候选(至少 2–3 首备选,避免卡版权)
3. 工作流总览(先定规则,再生成)
推荐按下面顺序推进,避免“生成到一半发现故事不通/风格不统一”。
- 明确需求:时长、风格、人员出镜方式、交付格式
- 写剧本:一句话梗概 → 分段台词/字幕 → 每段对应画面意图
- 做分镜:每个镜头的主体、场景、运镜、转场(文字版即可)
- 生成关键帧/场景图:先把“统一画风”打稳
- 视频生成:用“智能多帧”按分镜把镜头串起来
- 迭代:不满意的段落重抽卡;满意的段落锁定
- PR 合成:配乐、节奏、字幕、片头片尾、导出
4. 剧本与分镜:决定上限的环节
我用 ChatGPT 辅助生成剧本,核心是把“人物怎么出场、怎么过渡、每个镜头要表达什么”写清楚。

4.1 一个可复用的分镜表(模板)
你可以用表格把每段描述清楚,后续把每一行丢给图片/视频生成就很顺。
| 镜头 | 时长 | 画面主体 | 场景 | 运镜/动作 | 旁白/字幕 | 转场 |
|---|---|---|---|---|---|---|
| 01 | 3s | 团队合照/LOGO | 未来城市 | 推进 | “XX团队祝大家…” | 闪白 |
| 02 | 3s | A 同学 | 实验室/工位 | 左→右平移 | “新年快乐” | 遮罩 |
4.2 给 LLM 的提示词(示例)
(根据实际情况替换方括号内容)
你是视频导演,请为“[年会祝福视频]”生成一个 60 秒的剧本与分镜。
要求:
1)[N] 位成员依次出镜,每人 3–4 秒;
2)整体风格:[科技感/未来感];
3)每个镜头输出:画面主体、场景、运镜、转场、字幕;
4)镜头之间过渡要自然,尽量做到“一镜到底/连贯感”。
5. 即梦 AI:模式选择与功能对照
在即梦 AI 的视频生成里,我主要关注三种模式:首尾帧 / 智能多帧 / 主体参考。
5.1 三种模式怎么选
- 首尾帧:给定首帧(可选尾帧),模型在中间补全运动与变化;适合“单段短镜头”
- 主体参考:更像“把 A 的主体特征迁移到 B 的画面/动作里”(例如“让图二的动物戴上图一的帽子”)
- 智能多帧:更像“把多个关键帧串起来”,每帧之间用提示词描述运镜与切换;适合做“连贯的长镜头/一镜到底感”
我这次选择 智能多帧,因为它更适合把“多个人物出镜 + 多场景切换”串成一个整体。
5.2 从 ControlNet 思路迁移过来(概念对照)
如果你之前了解过 ControlNet,会发现即梦 AI 把能力拆成了多个“参考/约束”选项,例如:智能参考、角色特征、人像写真、主体识别、风格参考、边缘轮廓、景深、人物姿势等。
我这次最常用、也最容易踩坑的是下面两个:
- 角色特征:更偏“整体角色一致性”(性别、发型、衣着风格、整体气质等)
- 人像写真:更偏“人脸一致性”(脸型、五官、相似度等)
经验:如果你只强调了风格或场景,没强调人物一致性,确实可能出现“男生脸跑到女生身上”这类漂移。
6. 场景图/人物图生成:先把统一风格打稳
我的做法是先准备团队每个人的全身照,然后基于剧本逐段生成“对应场景”的图片(相当于关键帧)。
6.1 场景图提示词(示例模板)
[主体:某同学/团队LOGO],位于[场景:未来实验室/赛博街道/公司大厅],
风格:[科技感/电影级灯光/高对比/体积光],
构图:[中景/全身/三分法],
镜头:[35mm/浅景深],
细节:[屏幕HUD/霓虹灯/粒子特效],
高质量,清晰,细节丰富
6.2 一致性策略(实用)
- 统一画面规则:固定 1–2 套“风格参考”(色调/光比/材质)
- 固定人物规则:同一个人尽量用同一组参考图(全身 + 近景)
- 统一镜头语言:不要一会儿写实一会儿二次元;不要随机切换镜头焦段
7. 视频生成(智能多帧):按分镜逐段拼装
按剧本顺序,把每个场景的图片依次加入“智能多帧”,在帧与帧之间写清楚:
- 运镜:推进 / 拉远 / 平移 / 环绕 / 俯仰
- 动作:挥手 / 点头 / 走入画面 / 转身
- 转场:闪白 / 叠化 / 遮罩 / 速度渐变
[!tip]
写提示词时尽量“动作可视化 + 镜头可执行”。不要只写“酷炫一点”,而要写“镜头从左向右平移,主体保持居中,背景出现 HUD 叠加”。
8. 迭代方式:锁定满意片段,局部重抽卡
实际体验很像“随机抽卡”:一次生成出来,难免中间某些段落不满意。
我的迭代策略:
- 先通跑一版得到“可播放的粗剪”
- 对满意的片段锁定
- 只重生成不满意的片段(降低整体漂移和返工)
- 关键节点(人物首次出场、片头片尾)优先追求稳定
9. 后期剪辑(PR 等):把“可用”变成“好看”
视频生成完成后,我会用 PR 做一些最必要的后期:
- 配乐:先定节奏,再按节奏修剪镜头长度
- 修补:裁切、轻微调色、加少量转场/光效做统一
- 字幕(可选):人物祝福语、团队口号、片尾信息
- 导出:建议先导出一版 1080p 作为交付预览,再按需求导最终版
10. 复盘清单(下次更快)
10.1 开始前(5 分钟)
10.2 生成中(节省返工)
10.3 成片前(降低翻车)
如果后面我再做一版更“可控/可复现”的流程,计划把即梦 AI 的方案与 Stable Diffusion + ControlNet 的方案做一次对比:同一套分镜分别跑两条流水线,看成本/时间/质量/可控性的差异。
本文来自博客园,作者:一月一星辰,转载请注明原文链接:https://www.cnblogs.com/tangwc/p/19527663

ai制作视频经验分享
浙公网安备 33010602011771号