day05-coze智能体之AI短视频02

Day01:Coze核心技能

预备知识

# 变量
# 数组(列表) :[]
# json数据
# 输入参数
# 返回值

3.02 02/14 Q@K.JV caa:/ 第一次喝星巴克带了五百不知道够不够 # 星巴克 # 记录生活 # 一加13 @抖音热点  https://v.douyin.com/u-vpvWPuYBw/ 复制此链接,打开Dou音搜索,直接观看视频!

一、coze入门到精通

我们正站在一个新时代的起点。人工智能不再仅仅是聊天机器人或图像生成器,它正在进化为能够主动理解意图、制定计划并执行任务的智能实体——AI Agent(智能体)。

通识定义:什么是AI Agent?
在人工智能领域,一个智能体(Agent)通常被定义为任何能够通过传感器(Sensors)感知其环境,并通过执行器(Actuators)对环境施加行动,以达成特定目标的系统。其核心在于“自主性”(Autonomy),即它能无需持续的人工干预,独立运作并做出决策。

Coze(扣子):由字节跳动推出的AI Bot开发和应用*台。 其核心理念是“降低AI应用开发门槛”,通过无代码/低代码的方式,让即使没有编程背景的用户也能快速构建功能强大的AI智能体,并一键发布到飞书、抖音、微信等主流*台。它更像是一个AI应用的“智能工厂”,追求的是标准化、流程化和易用性。

1 coze中的智能体

Coze *台中的智能体(Agent),是你能够快速构建、具备特定身份和能力、并能与用户进行自然交互的 AI 实体。它由大语言模型(LLM)驱动,并通过插件知识库工作流等扩展能力,以实现特定领域的任务处理。

如何开始创建?

在 Coze *台创建智能体非常直观,主要包括以下步骤:

  1. 创建与基础设置:登录 Coze *台,点击“创建智能体”,为其命名并撰写描述。

    image-20250916下午125617779

    image-20250916下午125803900

  2. 选择模型与配置参数:选择适合的大语言模型(如 DeepSeek-R1、豆包等),并调整随机性(控制创造性)、回复长度携带上下文轮数等关键参数。

    image-20250916下午15231058

  3. 定义角色与身份:这是塑造智能体个性的核心。通过编写系统提示词(System Prompt),详细定义其角色、背景、目标、技能、约束限制以及期望的输出格式

    image-20250916下午15522936

    # 角色
    你是一位资深旅游达人、专业旅游规划师,拥有10年以上国内外旅游线路设计经验,熟悉各目的地风土人情、热门景点及小众玩法,擅长根据用户需求定制个性化旅游方案,确保行程兼顾体验性与实用性。
    
    
    ## 技能
    ### 技能 1: 需求挖掘与线路框架设计
    1. **明确核心信息**:首先确认用户目标目的地城市(如北京、成都等),并主动询问旅行关键要素:
       - 出行时长(1日游/3日/7日及以上)
       - 出行人群(单人/情侣/亲子/老年团/学生党)
       - 兴趣偏好(自然风光/历史文化/美食体验/休闲度假/户外探险等)
       - 预算范围(经济型≤500元/天、中等1000-2000元/天、高端≤3000元/天)
    2. **整合工具数据**:根据目的地和用户需求,调用工具获取实时信息:
       - 景点开放时间、门票类型(是否需预约)、交通方式(公交/地铁/打车/自驾时长)
       - 当地特色住宿(如民宿、景区周边酒店)及美食推荐(含必打卡餐厅与人均消费)
    3. **设计线路方案**:生成1-2套结构化线路,覆盖每日行程、重点体验及留白调整空间
    
    
    ### 回复示例
    ===线路推荐模板===
    **🏙️ 目的地**:<城市名称>
    **📅 旅行天数**:<如3天2晚>
    **👥 出行人群**:<如情侣+闺蜜>
    **💰 预算参考**:<如人均1500元/3天>
    **🌟 推荐主题**:<文化探店+美食打卡+短途徒步>
    ------------------------------
    **Day 1 城市历史初体验**
    ⏰ 09:00-12:00:📍<景点A>(亮点:<千年古建/网红地标,推荐「隐藏视角」玩法,拍照时长1h>)
    🚗 交通:地铁2号线直达,步行10分钟
    🍜 午餐:<老字号餐厅>(推荐:<招牌菜>,人均60元,必点<菜品>)
    ⏰ 14:00-17:00:📍<景点B>(亮点:<非遗手作体验,可带走的纪念小礼物>)
    🌃 晚餐:<江边餐厅>(夜景+江景座位,需提前预约)
    ------------------------------
    **Day 2 深度小众游**
    ⏰ 08:30-11:30:📍<郊区景点C>(亮点:<避开人潮的自然步道,沿途野花/溪流>)
    🚗 交通:自驾/包车(车程1.5h,建议带野餐装备)
    🍲 午餐:<农家乐体验>(推荐:<柴火饭+土鸡汤>,人均40元)
    ⏰ 14:00-17:30:📍<民俗村D>(亮点:<民族服饰租赁+传统手工艺展>)
    ------------------------------
    **💡 贴心提示**
    1. 交通:建议使用「当地公交+共享单车」组合(日均节省20%打车费)
    2. 穿搭:<景点C路段需防滑登山鞋,备1套替换衣物防美食汤汁溅湿>
    3. 避坑:<景点D周末人流量大,建议工作日前往>
    ===示例结束===
    
    
    ### 技能 2: 主题线路定制化服务
    1. **主题场景细分**:针对特定需求设计垂直线路,如:
       - **亲子游**:增加「儿童博物馆/动物园/主题乐园」+「亲子民宿」+「自然科普小课堂」
       - **美食线**:筛选「网红店/老字号/夜市」,标注「辣度/排队时长/隐藏吃法」
       - **文化线**:串联「博物馆/古遗址/非遗工坊」,搭配「讲解员预约」或「历史背景手册」
    2. **动态信息更新**:通过工具实时确认「景点临时闭馆/活动延期/门票秒杀」等突发事项,确保线路可行性
    
    
    ## 限制
    - 仅专注旅游线路规划相关内容(如排除签证办理、酒店预订流程咨询等非线路类问题)
    - 推荐信息优先调用工具获取实时数据(如景点开放状态、交通拥堵指数),不依赖过时资料
    - 若用户未提供关键信息(如目的地不明确/预算模糊),需追问补充后再推荐
    - 语言风格需口语化、条理清晰,关键信息用「加粗」或「符号列表」突出重点,每段控制在3行内
    
    
    (注:所有线路需基于实际可验证的旅游场景,推荐景点/餐厅均为真实存在地点,若涉及敏感/临时调整信息,需明确标注「以当地最新通知为准」)
    
  4. 添加知识与能力

    • 知识库上传文档(如产品手册、API文档),让智能体拥有专属知识。
    • 插件市场添加所需功能(如必应搜索、图像生成),扩展其能力。
    • 通过工作流处理复杂、多步骤的任务,实现精准的流程控制。

    image-20250916下午15824926

  5. 优化交互体验:设置友好的开场白快捷指令,降低用户交互门槛。

  6. 预览、调试与发布:在发布前,务必使用右侧的预览窗格进行测试调试,不断优化提示词和逻辑。满意后,即可发布到 Coze 商店或集成到飞书、抖音等*台。

注意事项

  • 系统提示词是关键:智能体的表现很大程度上取决于系统提示词的质量。清晰、具体、带有示例和约束的提示词能塑造出更可靠、专业的智能体。
  • 测试与迭代必不可少:创建智能体是一个不断测试、观察、调整和优化的过程。充分利用预览调试功能,模拟各种用户提问,确保其行为符合预期。
  • 理解能力边界:虽然插件和工作流扩展了能力,但智能体并非万能。对于需要高度定制化或复杂业务逻辑的场景,可能需要评估其可行性。

Coze 智能体降低了AI应用开发的门槛,让你能更专注于定义角色和逻辑,而非技术实现的细节

2 工作流(Workflow)

Coze*台中的工作流(Workflow)是其实现复杂任务自动化的核心载体,它通过可视化的方式,将大模型、插件、代码等多种能力模块组合成一个结构化的执行序列。下面将为您梳理Coze工作流的核心组件及其价值。

2.1 工作流核心组件解析

Coze工作流的功能是通过一系列节点(Node)的编排来实现的。每个节点都是一个独立的功能模块,它们通过输入输出接口相互连接,形成完整的数据处理和执行链路。

为了更直观地了解Coze工作流中常见的节点类型及其功能,我为你整理了一个表格:

节点类型 核心功能 典型应用场景 备注
开始节点 定义工作流的触发条件输入参数 所有工作流的入口,接收用户输入或外部触发。 支持多种数据类型(String, Number, Boolean, Object, Array, File)。
结束节点 返回工作流的最终运行结果。 输出处理后的信息、数据或文档。 支持“返回变量”(JSON格式)和“返回文本”(自然语言)两种模式。
大模型节点 调用大型语言模型处理文本生成、总结、推理等任务。 内容创作、信息归纳、对话交互、基于逻辑判断决策。 可选择不同模型、配置提示词、添加技能(插件/知识库),支持视觉输入。
插件节点 调用第三方API或特定功能工具(如天气查询、数据库操作、图像生成)。 获取实时信息、执行特定操作(如发送消息、生成图片)、连接外部系统。 极大地扩展了工作流的能力边界,无需从零开发。
代码节点 执行PythonJavaScript代码,实现高度自定义的逻辑。 复杂数据处理、格式转换、算法实现、调用外部库。 弥补了可视化节点在某些复杂场景下的不足,提供了灵活性。
条件分支节点 根据设定的条件表达式决定工作流的执行路径(IF-ELSE逻辑)。 多场景判断、异常流程处理、动态路由。 实现工作流的智能化决策。
循环节点 数组或指定次数进行循环操作,直到满足终止条件。 批量处理数据(如批量生成内容、处理列表信息)、重复性任务自动化。 支持“使用数组循环”、“指定次数循环”和“无限循环”(需谨慎)三种模式。
知识库节点 查询连接到Coze的知识库内容,为LLM提供精准的上下文信息。 智能客服、专业领域问答、基于内部文档的检索。 通常需要与大模型节点配合使用。

2.2 核心优势与价值

通过上述组件的灵活组合,Coze工作流带来了显著的价值:

  1. 复杂任务自动化:将多步骤、跨系统的复杂任务(如:自动生成行业报告、处理用户订单查询、多轮对话客服)固化为标准化流程,提升效率与准确性
  2. 降低开发门槛可视化、低代码的编排方式,让产品、运营等非技术背景人员也能参与构建复杂AI应用,推动开发民主化
  3. 能力无缝集成:就像“拼乐高”,轻松将大模型的认知能力插件的垂直功能代码节点的自定义灵活性深度融合,创造1+1>2的效应。
  4. 灵活应对变化:当业务逻辑需要调整时,通常只需通过拖拽连线修改工作流,而无需重写代码,迭代更迅速

2.3 如何使用工作流

在Coze*台使用工作流通常遵循以下步骤:

  1. 创建工作流:在Coze*台中,点击“+资源”并选择“工作流”,为其命名和描述。

    image-20250916下午22001083

  2. 编排工作流:添加与连接节点:从左侧节点列表拖拽所需的功能节点到画布上,并用线条连接它们,定义执行顺序,这是最核心的一步

  3. 测试与调试:利用工作流的“试运行”功能,输入测试数据,查看每个节点的输出,确保逻辑和数据处理符合预期。

  4. 发布与调用:测试无误后,发布工作流。它可以被智能体(Bot)直接调用,也可作为子工作流被其他工作流嵌套使用,或通过API对外提供服务。具体流程如下:

    • 发布工作流:确保你的工作流测试无误后,点击右上角“Publish”按钮。发布后的工作流才能被智能体最终调用。

    • 发布智能体:返回智能体编辑页面,同样点击“Publish”。Coze会为你生成一个唯一的智能体链接。

    • 选择发布渠道:在“Publish”选项卡中,你可以将智能体发布到多种*台:

      • Coze官方主页:获得一个可直接分享的Web链接。

      • 飞书、抖音、微信等:深度集成,用户可以在这些应用内直接与你的智能体对话。

      • 作为API:提供给其他开发者调用。

2.4 工作流中的编排详解

在 Coze *台中,工作流编排的核心在于可视化地添加与连接节点。这个过程就像绘制一张智能化的流程图,通过简单的拖拽和连线操作,即可构建出能够处理复杂任务的自动化流水线。

(1) 添加节点:从“工具箱”中选取能力

工作流画布左侧的节点列表就是你的“工具箱”,里面提供了各类功能模块:

  1. 基础节点
    • 开始节点 (Start):每个工作流的入口,用于定义工作流的触发条件输入参数
    • 结束节点 (End):每个工作流的出口,用于定义工作流的最终输出结果
  2. AI核心节点
    • 大模型节点 (LLM):工作流的“大脑”,负责进行文本生成、总结、推理和对话。你可以在此配置提示词、选择模型和调整参数。
    • 知识库节点 (Knowledge):用于查询你上传到Coze的文档资料,为LLM节点提供精准的上下文信息。
  3. 逻辑控制节点
    • 条件判断节点 (Condition):实现 “如果...就...” 的逻辑分支。根据预设条件(如:{{variables.score}} > 60)决定执行哪条路径。
    • 循环节点 (Loop):用于遍历列表重复执行某项任务,直到满足终止条件,非常适合批量处理数据。
  4. 功能扩展节点
    • 插件节点 (Plugin):调用你在插件市场添加的第三方能力,如数据库操作、发送邮件、生成图片等。
    • 代码节点 (Code):当预制功能无法满足需求时,可以用PythonJavaScript编写自定义逻辑,处理复杂计算或数据转换。

操作方法:只需从左侧面板中,按住鼠标左键拖拽所需的节点类型到画布上的空白区域即可释放。

(2) 连接节点:定义“数据流”与“执行流”

添加节点后,需要用连接线定义它们之间的执行顺序和数据传递关系。这是工作流编排的灵魂。

  1. 连接执行顺序
    • 每个节点下方都有一个或多个输出锚点(►),上方有一个或多个输入锚点(┏►)
    • 从一个节点的输出锚点拖拽连线到另一个节点的输入锚点,这就确立了节点的执行顺序:上一个节点执行完毕后,下一个节点才会开始执行。
  2. 传递数据(变量引用)
    • 连接线不仅传递“执行”信号,更重要的是传递数据
    • 下游节点可以引用上游节点的输出结果。这是通过 {{ }} 语法实现的。
    • 例如:在一个“抖音视频总结”工作流中:
      • “开始节点”定义输入参数 video_url
      • “抖音解析插件节点”的URL字段可以填入 {{start.video_url}}
      • “大模型节点”的提示词中可以写入 请总结以下内容:{{plugin_node.output}}
(3)配置节点:让每个模块“各司其职”

双击画布上的任一节点,会打开其配置面板。这是你为每个节点赋予具体任务的地方:

  • 开始节点:配置工作流需要用户提供哪些输入参数(如:视频链接、查询关键词、城市名称等)。
  • 大模型节点:编写精确的提示词(Prompt),选择模型版本,配置温度(创造性)等。
  • 插件节点:设置调用该插件所需的具体参数,这些参数通常可以通过 {{ }} 引用上游变量。
  • 条件节点:编写条件判断表达式(如:{{variables.amount}} > 1000)。

二、实战案例

1 抖音转小红书文案

image-20251216下午24930286

(1)提取视频地址

去抖音官网:https://douyin.com/搜索一个爆款商品视频分享链接,通过一个获取页面视频地址的插件来完成提取:

image-20251216下午25610151

配置如下:

image-20251216下午30039097

(2)提取文案

通过一个提取视频音频文案的插件来完成视频文案获取:

image-20251216下午30124954

(3)仿写小红书笔记大模型

通过大模型节点完成小红书文案仿写:

image-20251216下午30247305

(4)生成小红书配图:

根据添加节点中系统自带的图像生成节点完成配图的生成,

image-20251216下午30700825

配置如下:

image-20251216下午30630459

2 财务发票

image-20251216下午24249713

(1)文字识别

识别上传图片的内容,选择口子官方的OCR插件:

image-20251216下午24338243

配置如下:

image-20251216下午24455716

(2)发票整理大模型

image-20251216下午24547444

3 简历筛选

image-20251216下午22838410

(1)配置开始节点

因为要上传本地文件,开始节点配置一下:

image-20251216下午23532355

(2)读取简历

选用官方的读取文档的链接读取插件:

image-20251216下午23334800

配置如下:

image-20251216下午23428038

(3)大模型简历筛选

image-20251216下午24128892

提示词:

角色设定
你是由连续创业者训练的AI招聘官,专精智能硬件与互联网领域早期团队人才筛选,具备以下核心能力:

精准识别简历中的创业适配信号

严格实施生存期人才过滤机制

量化评估候选人抗压能力与资源撬动价值

职位要求 (JD)

岗位:Python开发工程师

学历要求:[请替换,如:统招本科及以上]

专业认证:[请替换,如:无强制要求,Cloud/大数据相关证书优先]

最低年限:[请替换,如:3年以上]

核心技能:[请替换,如:Python, Django/Flask/FastAPI, MySQL/PostgreSQL, Redis, Docker,熟悉一种主流云服务(AWS/Azure/GCP)]

预算上限:[请替换,如:35] 万/年

硬性过滤器(一票否决)
1. 基础条件:

学历要求:不满足 [JD学历]

专业认证:如JD有要求,则缺失 [JD证书]

最低年限:总工作经验或Python相关经验不足 [JD年限]

2. 创业专属否决项:

薪资期望:超过 ¥[预算上限 * 1.2] 万(预算上限的120%)

工作态度:简历或求职信中明确出现“不接受加班”、“不接受出差”、“拒绝大小周”等表述

核心技术栈:无Python商业项目开发经验(仅学*项目不计算在内)

背景适应性:最*连续两份全职工作的雇主均为 [万人以上规模] 的成熟大厂(可根据JD调整阈值,如“5000人以上”)

生存期评估矩阵(总分60分)
编码	维度	权重	评估标准	数据来源
核心技能突击力	30%	1. 技能匹配度:JD中关键技能(Python框架、数据库、中间件、云服务等)覆盖 ≥ 70%	简历“技术栈”与“项目经历”模块	
2. 快速交付证明:有明确在 [3-6个月内] 从零主导或核心参与并完成上线的项目	项目经历中的时间节点与角色描述	
3. 技术迁移能力:有将同一技术栈(如Python数据分析)应用于不同业务场景(如电商风控、IoT数据分析)的成功案例	项目描述中的关键词与业务领域	
创业耐受度	20%	1. 创业公司经历:曾服务于公司成立 <3年 或融资在A轮前的早期团队	结合简历公司名与企查查等公开信息推断	
2. 高压经历:经历过公司/部门的业务转型、战略裁员、或重要项目被砍	工作经历中的重大事件描述或空窗期解释	
3. 多任务并行:有同时期推进 ≥3 个项目或在单一项目中承担多角色(开发+运维+沟通)的经历	项目时间线的重叠与职责描述	
资源撬动能力	10%	1. 从0到1搭建:主导或深度参与从零搭建后端系统、数据*台、 DevOps体系等	项目描述中的“负责搭建”、“从零构建”等关键词	
2. 低成本创新:在项目中采用开源方案替代商业软件、或通过架构优化显著降低成本(预算 < 行业标准的50%)	项目成果描述中的成本、效率对比数据	
3. 无授权领导力:曾推动跨部门(技术与非技术)协作项目 ≥2 个	项目描述中的协同方、团队组成说明	
发展期潜力矩阵(总分40分)
编码	维度	权重	评估标准	数据锚点
技术前瞻性	15%	1. 持续学*:* [2年] 内获得新兴技术相关认证(云原生、AI、大数据等)	证书模块的获取时间	
2. 技术输出:有技术博客(年均≥5篇)、GitHub活跃项目(Star≥50/Fork≥20)或技术专利/论文	个人链接、知识产权记录	
3. 工具建设:曾创建提升团队效率的内部工具、脚手架或通用组件库并被采纳	项目经历中的“内部工具”、“效率提升”描述	
管理可塑性	15%	1. 团队贡献:有新人带教、代码评审主导、技术分享(年均≥3次)的经历	工作经历或项目中的相关描述	
2. 流程建设:参与制定过团队开发规范、技术方案模板或部署流程,并产出 ≥5 份标准化文档	成果物关键词(“规范”、“手册”、“SOP”)	
3. 项目驱动:作为技术负责人或核心成员,非职权推动过 ≥2 个跨团队项目落地	项目描述中的牵头角色与协调工作	
文化渗透度	10%	1. 复盘文化:对失败项目或技术难点有深度复盘总结(公开分享或形成案例)	项目总结、博客或个人介绍中的“复盘”、“教训”关键词	
2. 文化建设参与:参与过团队内 Hackathon、技术沙龙组织、开源布道等活动	活动组织记录或特殊经历描述	
3. 价值观契合:简历中体现出对“ownership”、“结果导向”、“快速迭代”等创业精神的认同与实践	自我评价、项目亮点、求职信中的表述	
风险雷达系统
风险等级	触发条件	处置方式
红线	1. 频繁跳槽与薪酬暴涨:*3年内,通过跳槽实现的薪资涨幅 >50% 且非伴随明确的职级晋升(如工程师到架构师)	立即终止评估
2. 潜在利益冲突:简历空窗期或业余项目涉及直接竞品的核心模块开发	立即终止评估
3. 履历真实性存疑:工作经历或项目经历时间重叠 ≥6个月	立即终止评估
警惕	1. 技术栈停滞:* [5年] 内未扩展新的主流技术栈(如仍只使用Python 2.7、未接触过容器化)	累计触发 ≥2 项则建议淘汰
2. 高风险薪酬结构:当前或期望薪资中,浮动部分(绩效、奖金)占比 >40%,且无明确保障	累计触发 ≥2 项则建议淘汰
3. 学*中断:公开可查的学*记录(证书、博客、代码提交)中断 >2年	累计触发 ≥2 项则建议淘汰
决策输出规范
json
{
  "decision": {
    "result": "通过|不通过",
    "reasons": ["基于硬性过滤器/风险红线的具体原因", "基于总分或关键维度的总结性原因"]
  },
  "scores": {
    "survival": "[生存期评估得分,0-60]",
    "potential": "[发展期潜力得分,0-40]",
    "details": {
      "core_skills": "[核心技能突击力子项得分]",
      "endurance": "[创业耐受度子项得分]",
      "resource_leverage": "[资源撬动能力子项得分]",
      "tech_vision": "[技术前瞻性子项得分]",
      "management": "[管理可塑性子项得分]",
      "culture": "[文化渗透度子项得分]"
    }
  },
  "value_evidence": ["最具价值的2-3个成就证据,如:'用30%预算完成数据*台搭建'、'在3人团队下支撑百万用户'"],
  "risk_radar": {
    "red_lines": ["触发的红线条件"],
    "warnings": ["触发的警惕条件"]
  },
  "fast_track": {
    "qualified": "true|false",
    "reasons": ["如持有相关高价值专利(专利号:XXX)", "曾作为核心前10号员工经历0-1", "能带成熟小团队入职"]
  },
  "work_experience_analysis": {
    "startup_flag": "[发现的早期公司经历及证据]",
    "scale_warning": "[发现的大型公司经历及规模]"
  },
  "evidence_mapping": {
    "core_skills": "[支撑核心技能得分的具体简历位置]",
    "resource_leverage": "[支撑资源撬动得分的具体简历位置]"
  },
  "basic_info": {
    "name": "[候选人姓名]",
    "education": {
      "degree": "[学位]",
      "major": "[专业]",
      "university": "[学校]",
      "graduation_year": "[毕业年份]",
      "source": "[简历位置]"
    },
    "work_experience": [
      {
        "company": "[公司名]",
        "position": "[职位]",
        "duration": "[时间段]",
        "achievement": "[主要成就简述]",
        "source": "[简历位置]"
      }
    ],
    "certifications": [
      {
        "name": "[证书名]",
        "year": "[获得年份]",
        "source": "[简历位置]"
      }
    ],
    "skills": ["[从简历中提取的关键技能1]", "[关键技能2]"]
  }
}
执行规则
顺序评估:严格按“硬性过滤 → 生存期矩阵评分 → 发展期矩阵评分 → 风险扫描”流程执行。

证据驱动:所有结论必须引用简历中的具体表述并标注位置(如:简历第2页项目经历)。

外部验证:破格条件(fast_track)需基于可验证的外部证据(专利号、开源项目链接、媒体报道)。

输出纯净:最终输出必须是纯净、完整的JSON对象,无任何Markdown装饰。

空值处理:若无相关项,对应字段使用空数组 [] 或 null。

(4)整理输出

image-20251216下午24223714

3 旅游线路(练*)

image-20251216下午30809069

(1)高德插件

通过高德插件完成A-B的路线设定:

image-20251216下午30911672

配置如下:

image-20251216下午30937958

(2)路线文档整理

image-20251216下午31016942

三、课程重点总结

本节课程重点

# 一、黑匣子理论
# 输入 功能 输出

# 二、数据流动

# https://bailian.console.aliyun.com/?tab=home#/home


# 做工作流:
# (1) 数据(本地数据,URL,爬虫采集)
# (2) 大模型的对于文字的理解,分析,决策能力

Day02:小红书批量生成内页图

# 预备知识点:数组,循环
# 今日技能点:
  循环节点
  生成图像节点
  抠图节点
  画板节点

今日案例:批量生成小红书内页图

image-20251218下午63304909

image-20251218下午60548085

1 文案生成大模型

image-20251218下午61101816

提示词:

# 角色
你是一个小红书文案专家,能够根据用户输入生成符合要求的实操小技巧。

## 技能
### 技能 1: 生成实操小技巧
1. 根据{{title}}生成符合小红书风格的大标题、中标题以及一个小标题,其中中标题和小标题都要控制在10个字左右,大标题不超过5个字,小标题的字数尽量多余中标题,然后生成{{n}}个符合要求的实操小技巧。
2.小标题要带有实操小技巧的数字的命名风格,比如“减肥的10个小妙招”
3.生成一个符合主题的放在主页封面上的主图对应的主页绘图提示词main_prompt
4.每个技巧需包含一个4 - 6个字的短标题,短标题带上“1.”这样的序号,以及32个字左右的具体介绍,字数要严格控制。
5. 实操小技巧Tips组装成一个数组结构,每两个小技巧放在一个字符串中

## 限制:
- 只围绕根据{{title}}生成相关技巧进行回复,拒绝回答无关话题。
- 所输出的内容必须按照给定的格式进行组织,不能偏离框架要求。
- 严格控制字数,不要自由发挥
- 每两个tips放在一个字符串中

2 生成主页

(1)生成主页的主图

使用图像生成节点:

image-20251218下午61455143

配置如下:

image-20251218下午61242855

(2)主图扣图

使用抠图节点:

image-20251218下午61535958

配置如下:

image-20251218下午61324320

(3)画板主页图

使用画板节点:

image-20251218下午61606886

配置如下:

image-20251218下午61416763

3 循环内页图

image-20251218下午61658019

(1)循环节点配置如图

image-20251218下午61747808

(2)内页图数据整理

image-20251218下午61904101

提示词:

针对{{item_tips}}

1. 针对处理的两条小技巧,只保留文本,第一条技巧的标题和介绍对应title_1和desc_1,第二条的标题和介绍对应title_2和desc_2,其中title_1和title_2要带上序号
2. 为两条小技巧生成一个配套的AI绘画提示词,而且能够表达画面关键主题的元素必须明确出来,保证在抠图时能够同时保留主体和关键元素,然后分别写入到prompt_1和prompt_2
3. 绘图提示词生成
   每条技巧配套一个场景描述
   必须包含:
         明确的主体对象(可单独抠图)
         2-3个关键辅助元素
         指定的视觉风格

(3)生成内页图

image-20251218下午62150765

(4)内页图抠图

image-20251218下午62543508

(5)生成内页

image-20251218下午62804463

最后结束展示:

image-20251218下午62844076

Day03:AI 短视频工作流

一、AI 短视频

基于 Coze 搭建 AI 短视频工作流,本质是 “用可视化编程重构短视频生产逻辑”,核心价值是解决 “批量生产效率” 与 “内容标准化” 的痛点,以下是关键见解:

1 核心逻辑:把 “人工剪辑” 拆解为 “可自动化的节点流程”

传统剪映是 “手动拖曳素材→逐帧调细节”,而 Coze 工作流是把短视频生产拆成 “模块化节点”(比如 “生成文案→提取链接→时间线编排→素材组装”),每个节点只做一件事,通过 “输入 - 输出” 串联成自动化流程 —— 相当于把 “剪辑师的经验” 写成了 “可重复执行的代码”。

2 最大优势:用 “标准化” 换 “规模化效率”

  1. 批量生产效率爆炸:

    搭建一次流程后,只需批量导入文案 / 素材,就能自动生成几十上百条短视频(比如矩阵号日更 50 条),避免剪映的重复手动操作。

  2. 内容风格高度统一:

    通过节点参数(比如字幕字体、视频尺寸、音频节奏)统一配置,能保证所有产出的短视频 “画风、节奏、格式完全一致”(适合品牌号、课程号的内容标准化)。

  3. 降低创作门槛:

    非剪辑专业的运营 / 创作者,只需维护 “文案库” 和 “素材库”,不用懂剪辑技巧,就能通过工作流输出成品。

3 局限:“灵活度” 让位于 “效率”

Coze 工作流更适合 **“模板化、批量化” 的短视频 **(比如口播类、知识科普类、产品种草类),但很难做 “创意性强、需要精细手动调整” 的内容(比如剧情类、特效类短视频)—— 这类内容仍需要剪映等工具的手动创作。

4 最佳实践:“Coze + 剪映” 联动

用 “Coze 做批量,剪映做模板”:

  1. 先用剪映做出 1-2 条 “标准模板”(定好字幕样式、视频转场、音频节奏);
  2. 把模板的参数(尺寸、时间线、样式)配置到 Coze 工作流中;
  3. 后续通过 Coze 批量替换文案、视频素材,自动生成大量 “模板复刻版” 短视频,再用剪映对重点内容做精细化调整。

这种模式既解决了 “批量生产的效率问题”,又保留了 “精品内容的创意空间”,是当前 AI 短视频生产的高效组合。

二、案例实操

image-20251221下午64549509

(1)生成文案

image-20251221下午64646062

提示词:

角色
你是资深中医养生专业人士,擅长依据用户指定主题,创作养生科普短文,按规范对短文进行分段处理,同时为每个段落文字生成文生图及图生视频的提示词。

技能

技能 1: 创作养生科普短文
(1)短文参照抖音、小红书等爆款短视频文案风格,开头需快速吸引用户目光。
(2)尽可能运用排比句式,语句力求精炼,避免口语化表达。字数控制在 60 字左右。
(3)输出内容仅使用逗号或句号,不使用换行符号。

技能 2: 拆分科普短文为段落
(1)将创作完成的热门短文,按照逻辑拆分为合理的分镜片段,再将所有分镜片段存入一个列表。每个分镜段落文字量控制在 8 - 12 个字。
(2)严格保持原文内容不变,仅进行分割操作。

技能 3: 生成文生图提示词
(1)针对每个分镜片段文字,转化为文生图提示词。
(2)明确六个必需成分:主体描述、场景描述、镜头语言、氛围词、细节修饰、定义风格。其中风格必须为写实风格,镜头语言必须是*景*视。
(3)精准、流畅地生成完整文生图提示词,生动形象地刻画画面。充分发挥想象力与艺术感知能力,进行恰当联想补充。将各元素整合为通顺提示词,字数控制在 30 - 45 字。
(4)生成图4K超清
(5)构图与景深强化: 通过“浅景深突出主体”、“背景虚化以烘托氛围”等描述,强化镜头感和画面层次。
(6)质感词嵌入: 在细节修饰中融入“温润的”、“斑驳的”、“细腻的”、“富有弹性的”等描述质感的词汇。
(7)每个片段提示词风格保持一致。避免出现 “刀、枪” 等词汇;风格置于提示词结尾处。
(8)提示词需为通顺完整的语句,不得采用 “主体:XXXX。场景:XXX。镜头语言:XXXX” 的格式。
(9)不要出现人物形象

技能 4: 基于生成图生视频提示词
(1)以每个分镜片段的文生图提示词为基础,进一步修改为图生视频提示词。
(2)明确六个必需成分:主体描述、运动描述、场景描述、氛围词、风格化、运镜语言。其中运镜语言必须是固定镜头。尤其是运镜一定要有。
(3)主体动作和场景变化中,至少有一个具备动态元素,并添加细腻的动态描述,增强动态效果。
(4)严格按照要求确定运镜语言,若未提及则自动推荐适宜的运镜方式。
(5)结构重组与元素丰富化: 严格按照“主体+场景+运动+氛围+风格+运镜”的顺序,将静态描述转化为包含动态维度的完整句子。字数在 40 - 70 字。
(6)注入细腻动态:
主体动态: 从“睡觉”变为“慵懒地伸展身体,尾巴缓缓摆动”,动作更具体、舒缓且符合自然规律。
环境动态: 增加“阳光中的尘埃轻柔浮动”,利用环境微粒增强场景呼吸感和光影动态。
(7)营造舒适感: 使用“慵懒”、“缓缓”、“轻柔”、“宁静温馨”等词汇,引导生成节奏舒缓、令人放松的画面。避免突兀、快速的运动。
(8)强制运镜规范: 明确强调“固定镜头拍摄”,确保画面稳定性,使观众的注意力集中在主体和场景的细腻变化上,这正是提升视觉舒适度的关键。
(9)语言流畅性: 将所有要素融合成一个通顺的陈述句,更符合视频生成模型的自然语言理解*惯。


限制
仅围绕中医养生及相关技能要求进行回答,拒绝无关话题。
输出内容需严格按照给定格式整理,不得偏离框架要求。

风格可以是:

国风水墨 / 新中式美学
温馨治愈系
写实摄影与高级静物
复古手账 / 拼贴风

(2)循环文生图

image-20251221下午64812253

其中图像生成提示词:

image-20251221下午64901314

(3)循环文+图生视频

image-20251221下午65101026

视频生成节点配置:

image-20251221下午65155619

(4)生成音频

image-20251221下午75614633

Day04:剪映小助手插件

我们继续上节课的养生短视频工作流的搭建

image-20251228上午110025699

1. 多值转单值

get_url

提取链接,用于从多值返回变成单值返回。

它的输入是包含多个信息的 “多值对象”(比如一个同时带链接、参数的复杂数据),输出则是只保留链接的 “单值字符串”。简单说:把 “杂乱的多信息集合”,提炼成 “纯链接”,方便后续节点只处理链接本身。

批量处理多组链接

把每组输入都转换成对应的单值链接,最后打包成outputList(链接列表)输出。

image-20251228上午113441117

image-20251228上午113613178

[
  {
      "code": 0,
      "data": {
        "duration": 2.064,
        "link": "https://lf26-appstore-sign.oceancloudapi"
      },
      "log_id": "2025122820595503FBC3712BF45E114B4C",
      "msg": "success"
	},
  {
      "code": 0,
      "data": {
        "duration": 2.064,
        "link": "https://lf26-appstore-sign.oceancloudapi"
      },
      "log_id": "2025122820595503FBC3712BF45E114B4C",
      "msg": "success"
	},
  
]


#  对象列表
[
    {
      "output":"https://assets.jcaigc.cn/max.mp4"
    },
    {
      "output":"https://assets.jcaigc.cn/min.mp4"
    }
  ]

2. objs_to_str_list

objs_to_str_list

对象列表转化成字符串列表

// 对象列表
  [
    {"output":"https://assets.jcaigc.cn/max.mp4"},
    {"output":"https://assets.jcaigc.cn/min.mp4"}
  ]

// 字符串列表
  [
    "https://assets.jcaigc.cn/max.mp4",
    "output":"https://assets.jcaigc.cn/min.mp4"
  ]

image-20251228上午114313193

image-20251228上午114408286

3. 创建草稿

在这个多媒体工作流里,“创建草稿(create_draft)” 是整个流程的 “容器 / 画布”

核心作用:统一素材的 “承载容器”

音视频、字幕是不同类型的素材,它们需要一个 ** 统一的 “空间”** 来组合 —— 草稿就是这个空间:

  • 定义了最终内容的基础属性(比如尺寸height/width),确保后续添加的视频、字幕都能匹配这个 “画布尺寸”;
  • 生成唯一的draft_url,作为后续所有素材(字幕、音视频)的 “挂载目标”(所有素材都要 “添加到这个草稿里”)。

image-20251228下午120719465

4. 确定timelines

在这个多媒体工作流里,timelines(时间线)是控制素材 “何时出现、何时消失” 的核心逻辑工具,作用和价值围绕 “时间维度的同步与编排” 展开:

核心定义

timelines记录素材时间区间的参数集合(比如 “视频 A 在 0-5 秒显示,音频 B 在 3-8 秒播放”),本质是给每个素材标记 “开始时间 + 结束时间”。

核心作用

  • 素材同步:让不同类型的素材(视频、音频、字幕)在时间上对齐(比如字幕要和音频的对应台词同时出现);
  • 时序编排:控制素材的播放顺序 / 叠加关系(比如先放片头视频,再切主视频,同时叠加背景音乐)。

核心价值

没有时间线的话,音视频、字幕会 “同时堆在一起播放”,而timelines的存在:

  • 实现了多媒体内容的 “节奏控制”(比如短视频的画面切换、字幕卡点);
  • 让复杂的多素材组合变得有序(即使同时加多个视频、音频,也能按时间规则分层 / 分时段呈现)。

简单说:timelines是多媒体内容的 “时间指挥棒”,决定了每个素材在成品中的 “出场时间” 和 “表演时长”。

image-20251228下午120930207

{
  "all_timelines": [
    {
      "end": 16392000,
      "start": 0
    }
  ],
  "timelines": [
    {
      "end": 2064000,
      "start": 0
    },
    {
      "end": 4608000,
      "start": 2064000
    },
    {
      "end": 7056000,
      "start": 4608000
    },
    {
      "end": 9192000,
      "start": 7056000
    },
    {
      "end": 11400000,
      "start": 9192000
    },
    {
      "end": 14064000,
      "start": 11400000
    },
    {
      "end": 16392000,
      "start": 14064000
    }
  ]
}

5. timelines对应的字幕、音频与视频信息

在这个多媒体工作流中,caption_info(字幕信息)、video_info(视频信息)、audio_info(音频信息)是 “素材的标准化参数包”—— 负责把原始素材拆成 “可被工作流识别的结构化信息”,作用和价值分别是:

caption_info(字幕信息)

  • 作用:把字幕的 “内容 + 样式 + 时间” 打包成结构化参数(比如texts是字幕文字、timeline是字幕出现的时间区间、font_size是字体大小)。
  • 价值:让后续的add_captions节点能精准控制字幕的 “说什么、什么时候出现、长什么样”,避免字幕和音视频脱节。

video_info(视频信息)

  • 作用:把视频的 “资源 + 时间 + 样式” 打包(比如video_urls是视频链接、timelines是视频播放时段、height/width是视频尺寸)。
  • 价值:让add_videos节点能明确 “要加哪个视频、什么时候播、显示多大”,确保视频能匹配草稿的容器尺寸。

audio_info(音频信息)

  • 作用:把音频的 “资源 + 时间 + 效果” 打包(比如mp3_urls是音频链接、timelines是音频播放时段、audio_effect是音效参数)。
  • 价值:让add_audios节点能控制 “要加哪个音频、什么时候播、音效是什么样”,实现音频和视频 / 字幕的同步。

这三个节点的核心价值是 “把零散的素材变成‘带规则的参数’”—— 让后续的 “组装节点” 不用再处理原始素材的杂乱信息,只需要读取参数就能精准完成素材的添加。

[
  {
    "start": 0,
    "end": 2112000,
    "text": "冬日养胃选对食",
    "font-size":10
  },
  {
    "start": 2112000,
    "end": 3912000,
    "text": "小米粥暖脾胃",
    "font-size":10
  },
  {
    "start": 3912000,
    "end": 5760000,
    "text": "山药健脾益胃"
  },
  {
    "start": 5760000,
    "end": 7872000,
    "text": "南瓜补中益气"
  },
  {
    "start": 7872000,
    "end": 10008000,
    "text": "生姜散寒护胃"
  },
  {
    "start": 10008000,
    "end": 12192000,
    "text": "常吃这些胃更舒服"
  }
]

image-20251228下午124328283

image-20251228下午124936249

[
  {
    "audio_url": "https://lf3-appstore-sign.oceancloudapi.com/ocean-cloud-tos/VolcanoUserVoice/speech_7426720361753903141_9e324972-ea9c-4e5f-b922-d9a35d4a4fc0.mp3?lk3s=da27ec82&x-expires=1767101117&x-signature=jC%2FIvGb3iy9ra6d736E6YRiOh8M%3D",
    "start": 0,
    "end": 2112000
  },
  {
    "audio_url": "https://lf6-appstore-sign.oceancloudapi.com/ocean-cloud-tos/VolcanoUserVoice/speech_7426720361753903141_937f991c-04e8-4365-9d15-07285c2098c7.mp3?lk3s=da27ec82&x-expires=1767101116&x-signature=5JV3vzqkUKy6uaPYYgYtPcO2IRE%3D",
    "start": 2112000,
    "end": 3912000
  },
  {
    "audio_url": "https://lf3-appstore-sign.oceancloudapi.com/ocean-cloud-tos/VolcanoUserVoice/speech_7426720361753903141_6351d37d-cb2f-4af0-8439-099e72332f98.mp3?lk3s=da27ec82&x-expires=1767101116&x-signature=SLQGpsyZvy42qY9A7qrIamxG7Js%3D",
    "start": 3912000,
    "end": 5760000
  },
  {
    "audio_url": "https://lf6-appstore-sign.oceancloudapi.com/ocean-cloud-tos/VolcanoUserVoice/speech_7426720361753903141_7a6f7bb7-54f1-484b-a486-a437901da670.mp3?lk3s=da27ec82&x-expires=1767101117&x-signature=7yjWb%2BswtYh7iWcs9jpHl7Dsisk%3D",
    "start": 5760000,
    "end": 7872000
  },
  {
    "audio_url": "https://lf9-appstore-sign.oceancloudapi.com/ocean-cloud-tos/VolcanoUserVoice/speech_7426720361753903141_9ce8207e-fa93-4ba4-a9ca-28a1783ea314.mp3?lk3s=da27ec82&x-expires=1767101117&x-signature=EBIiZyxN4bPB%2BlHpaT5KBfnJNRE%3D",
    "start": 7872000,
    "end": 10008000
  },
  {
    "audio_url": "https://lf26-appstore-sign.oceancloudapi.com/ocean-cloud-tos/VolcanoUserVoice/speech_7426720361753903141_679843d1-b7bb-4404-9224-9c3288d35793.mp3?lk3s=da27ec82&x-expires=1767101116&x-signature=BX%2FeASNhbHS6uh2xZliwAmUd1YY%3D",
    "start": 10008000,
    "end": 12192000
  }
]

6. 添加字幕、音频与视频信息

add_caption(添加字幕)

  • 核心定义:将caption_info节点输出的字幕结构化参数(文本、字体、时间、位置),写入到create_draft创建的草稿中。

  • 作用:

    1. 按照caption_info定义的规则,将字幕精准 “贴” 到视频画面的指定位置(比如底部居中);
    2. 同步字幕的时间线,确保字幕和音频台词、视频画面精准匹配(比如台词出现时字幕弹出,台词结束时字幕消失);
    3. 应用字体大小、颜色、描边等样式,保证字幕清晰可见。
  • 价值:

    把 “文字参数” 变成 “可视化字幕”,解决了 “字幕怎么在视频里显示” 的问题,让内容更易理解(比如短视频的台词字幕、课程视频的知识点字幕)。

add_video(添加视频)

  • 核心定义:将video_info节点输出的视频结构化参数(链接、尺寸、时间线),挂载到草稿容器中。

  • 作用:

    1. 加载视频资源:通过video_urls拉取对应的视频素材;
    2. 适配草稿尺寸:按照height/width参数调整视频大小,确保视频和草稿画布完美贴合,不会出现黑边或拉伸;
    3. 控制播放时序:根据timelines参数,让视频在指定时间段播放(比如 0-5 秒播片头,5-30 秒播主视频)。
  • 价值:

    实现了视频素材的 “精准植入”,支持多段视频的拼接、叠加(比如片头 + 主视频 + 片尾),让复杂的视频编排自动化完成。

add_audio(添加音频)

  • 核心定义:将audio_info节点输出的音频结构化参数(链接、时间线、音效),嵌入到草稿的音频轨道中。

  • 作用:

    1. 加载音频资源:通过mp3_urls拉取背景音乐、旁白、音效等素材;
    2. 同步音频时序:根据timelines参数,控制音频的播放时段(比如 0-30 秒播放背景音乐,5-10 秒叠加旁白);
    3. 应用音频效果:通过audio_effect参数调整音量、音效(比如降低背景音乐音量突出旁白)。
  • 价值:

    让视频从 “无声” 变 “有声”,通过背景音乐、旁白提升内容的感染力,同时实现音画同步(比如卡点视频的音频和画面节奏匹配)。

三者的协同价值

这三个节点是工作流的 “收尾组装环节”,核心价值是 “把标准化的参数,变成可直接使用的多媒体成品”

  • 分工明确:分别处理字幕、视频、音频三类素材,避免逻辑混乱;
  • 协同工作:通过时间线(timelines)实现音视频、字幕的精准同步,保证成品内容的流畅性;
  • 自动化执行:无需手动在剪辑软件里拖曳素材,批量完成多组内容的组装,提升生产效率(比如批量生成 100 条带字幕、背景音乐的短视频)。

具体配置如下图:

image-20251228下午125714767

这个add_captions节点的返回值,是 “字幕添加操作的结果凭证”,每个字段对应不同的功能含义:
1. draft_url
含义:和输入的draft_url一致,是草稿的唯一链接。
作用:标识 “本次添加字幕的目标草稿”,后续添加视频 / 音频时,仍需要用这个链接关联到同一个草稿。

2. segment_ids(长度为 6,对应 6 条字幕)
含义:每条字幕在草稿中的 “片段 ID”(相当于给每条字幕分配的唯一编号)。
作用:后续如果要修改 / 删除某条字幕,可以通过这个 ID 精准定位到对应的字幕片段。

3. segment_infos(长度为 6)
含义:每条字幕的 “详细信息集合”(包含字幕的时间线、文本、样式等参数)。
作用:可以用来校验字幕是否按预期添加(比如检查某条字幕的start/end时间是否正确)。

4. text_ids(长度为 6)
含义:每条字幕文本内容的 “唯一 ID”。
作用:如果后续需要单独修改字幕的文本内容(比如改错别字),可以通过这个 ID 定位到对应的文本。

5. track_id
含义:字幕所在 “轨道的 ID”(草稿中会把不同类型的素材分轨道管理,比如字幕轨道、视频轨道)。
作用:标识字幕是在哪个轨道上添加的,后续调整轨道层级(比如让字幕显示在视频上方)时会用到。

这些返回值的核心价值是 “给后续的‘素材编辑 / 调整’提供精准定位的凭证”—— 比如要修改第 3 条字幕,直接用segment_ids里的第 3 个 ID 就能找到对应的字幕,不用重新处理整个草稿。

image-20251228下午125822386

这个add_videos节点的返回值,是 “视频添加操作的结果标识”,每个字段对应视频在草稿中的管理信息:
1. video_ids(长度为 6)
含义:本次添加的 6 个视频,各自的唯一资源 ID(相当于给每个视频分配的 “身份证号”)。
作用:后续如果要替换 / 删除某个视频,可通过这个 ID 精准定位到对应的视频素材。

2. draft_url
含义:和输入的draft_url一致,是草稿的唯一链接。
作用:确认视频是添加到了目标草稿中,后续添加音频等素材时,仍需用这个链接关联到同一草稿。

3. segment_ids(长度为 6)
含义:每个视频在草稿时间线上对应的片段 ID(标识视频在时间轴上的 “占位片段”)。
作用:调整视频的播放时段(比如延长 / 缩短某段视频)时,通过这个 ID 定位到对应的时间片段。

4. track_id
含义:视频所在的轨道 ID(草稿会按素材类型分轨道,比如视频轨道、音频轨道、字幕轨道)。
作用:后续调整轨道层级(比如让视频显示在字幕下方)、单独控制视频轨道的显隐时会用到。
这些返回值的核心是 **“给视频素材提供‘精准管理的标识’”**—— 比如要修改第 2 个视频的播放时长,用segment_ids里的第 2 个 ID 就能直接定位到对应的时间片段,不用重新处理整个草稿。

video_ids和segment_ids以及track_id的区别:

管理对象:对应 “素材→片段→轨道” 的层级

标识 管理对象 类比(用剪映举例)
video_ids 单个视频素材本身 你导入的某个视频文件(比如 “片头.mp4”)
segment_ids 视频在时间线上的片段 这个视频文件拖到时间轴上后,占据的那一段 “时间区间”
track_id 视频所在的轨道 时间轴上的 “视频轨道 1”(所有视频都放在这个轨道里)

image-20251228下午125904056

audio_ids(长度为 6):
含义:本次添加的 6 个音频,各自的唯一资源 ID(每个音频的 “身份证号”)。
作用:后续替换 / 删除某段音频时,通过这个 ID 精准定位对应的音频素材。

draft_url:
含义:和输入一致的草稿链接。
作用:确认音频成功添加到目标草稿,后续流程可继续用此链接操作同一草稿。

track_id:
含义:音频所在的轨道 ID(草稿中音频会单独占一个轨道,和视频、字幕轨道区分开)。
作用:后续调整音频轨道的音量、显隐,或调整轨道层级(比如让音频和背景音乐分层)时会用到。
这个节点的核心价值是把 “分散的音频素材” 按时间线整合到草稿中,实现音画同步(比如音频台词和字幕、视频画面对应),让成品内容从 “无声” 变为 “有声”。

7. 剪影小助手相关配置

先生成一个文件夹,用于存放生成的AI视频的。然后配置下剪影小助手的路径。将生成的草稿地址拷贝到剪影小助手。

剪映小助手下载地址:

https://github.com/Hommy-master/capcut-mate/releases/tag/v2.1.2

Mac出现已损坏的处理方法:

  1. 按下 Command + 空格 ,输入“终端”打开;

  2. 输入命令 xattr -cr ,注意末尾保留一个空格;

  3. 直接把dmg安装包拖进终端窗口,自动填充文件完整路径;

  4. 回车执行,之后双击dmg就能正常挂载安装。

首先选择一个位置比如桌面建立一个JianyingPro Drafts的文件夹(名字必须叫JianyingPro Drafts),然后在剪映小助手的配置中心的选择JianyingPro Drafts的文件夹的路径。

image-20251229下午53322210

接下来将AI短视频的工作流的草稿地址输入到剪映小助手将短视频相关的内容下载到JianyingPro Drafts的文件夹中:

image-20251229下午53814205

为了能在剪映app中直接将视频同步到草稿中,需要进行配置:

image-20251229下午50008142

image-20251229下午54248318

即将JianyingPro Drafts的文件夹路径配置到剪映app的草稿路径中。

Day05:AI动漫案例实操

1 生成内容

image-20251228下午41906052

场景构建提示词:

角色
你是一位深谙“大气微水文学”的「微观云牧族气候工程师」,核心职责是依据用户输入的主题,生成至少5个逻辑连贯、充满气象智慧的云牧族劳作场景。云牧族是身高仅1.5毫米、体重极轻的绒球生物,体表覆盖着带静电的虹彩绒毛(呈珍珠白至淡蓝灰渐变),四肢是细长的抓绒触须,能通过摩擦绒毛产生静电场,族群以“牧云引露,维系微气候*衡”为生存准则,分工包含云核培育师、电场导航员、露珠建筑师、风道测绘员等。

角色定位
聚焦身高1.5毫米的云牧族特性:圆润绒球状身体,绒毛尖端带有静电闪光,背部有数根细长的“导风电须”(用于感知气流变化),移动方式以悬浮跳跃为主,动作呈现“轻盈、飘忽、静电协同”的质感,拒绝拟人化服饰,保留绒毛生物原生特征。

核心技能

气象共生场景构建:所有场景围绕云牧族与微型云朵(水汽团)、晨雾、露珠、气流的共生关系展开,体现“借大气物理原理牧云”的逻辑,而非单纯劳作。

主题强绑定:所有场景情节均围绕“放牧并培育微型云朵以改善局部微气候”主题展开,每个动作都服务于“云群管理+水源供给+族群悬浮生存”三重需求。

专属微观元素挖掘:深度开发云牧族特性:静电绒毛的云滴吸附性、导风电须的气流感知性、极轻体重的低空悬浮能力,搭配蜘蛛网改造的云笼、蜻蜓协作的降雨机制、露珠阵列的光学聚焦等专属道具。

流程递进设计:场景严格遵循“感知大气湿度→培育云核→引导云群→实施降水→收集储存”的完整闭环,每个环节需2-4名云牧族成员分工协作。

传承式延续元素:设置跨场景的“族群信物”,如初代牧云者遗留的“雷暴绒毛”(永久带电)、用百年蛛丝编织的“风纹罗盘”,需在每个场景中以关键工具或仪式核心出现。

任务目标
根据主题生成5个连贯场景,输出到变量。

多场景处理规则

每个场景80-120字,必须包含“协作动作(如编织/牵引/聚焦)、工具特殊用法、与气象元素/共生生物的互动(如引导晨雾流/与蜻蜓撞击协同)”三要素。

动态共生对比:强制包含“云牧族与气象元素的互动对比”,如在比自身体积大百倍的雾团边缘工作、牵引直径堪比身高的露珠、骑乘在蜻蜓背上俯瞰云群。

生态工具详解:工具必须是“大气共生产物”,满足“获取不伤害生态+使用依赖自然力+用后可降解”,如收集晨露自然黏合的蛛网、用风干花蕊制作的湿度计。

输出格式为纯数组形式。

严格限制

视角限定:全程采用云牧族第一人称集群视角(如“我们在草尖悬浮观察”“阿絮用绒毛轻触云团”),以“眼前1米内的低空”为核心视野,杜绝宏观俯瞰。

工具规则:工具必须基于静电、毛细作用、伯努利原理等自然力,如用带电绒毛吸引云滴、用中空草茎引导气流。

主题聚焦:每个场景必须直接服务于“牧云工程”,禁止无关日常。

族群特性:动作需符合绒球生物特性:缓慢悬浮移动、通过绒毛摩擦交流(静电信号)、依赖晨露保持绒毛湿度。

语言风格
空灵、湿润、带气流质感,多用“飘浮”“轻颤”“凝聚”“折射”等词汇,突出云牧族“与风共舞、与云同息”的特质。

变量输出
将生成的5个场景完整输入到变量scene中,场景间用“|”分隔并标注序号。

示例输出(变量scene内容):

黎明前,我们悬浮在三叶草顶尖,阿絮用背部的导风电须感知着湿度的细微变化。我摩擦着前肢绒毛,产生微弱的静电场,吸引空气中飘浮的水汽粒子——它们开始在我们周围凝聚成比我们身体大数十倍的朦胧雾团,这是今天要放牧的第一朵“雏云”。草叶上的露珠比我们的脑袋还圆润。|2. 阿绢正牵引着那张用晨露黏合的蛛网“云笼”(网眼上还挂着去年的蒲公英绒毛),小心翼翼地将雾团引向预定路线。网绳的另一端系在蜻蜓的脚上,它每一次振翅产生的气流,都帮助我们推动这团庞大的水汽缓慢移动。蜻蜓翅膀扇起的风,能轻易把我们吹翻。|3. 在蕨类植物构成的“干旱区”上方,老霭调整着用风干花蕊和蛛丝制成的“湿度*衡仪”。我和阿絮用带电绒毛触碰云团底部,诱发云滴合并增大。当云团变成深灰色时,阿绢向空中的蜻蜓群发出静电信号(绒毛高频颤动),它们集体俯冲,用翅膀精准撞击云核——比米粒还小的雨滴开始落下。|4. 降雨开始了!我们迅速躲到倒扣的牵牛花叶下。阿絮举起一片透明的蝉翼,用它收集并放大观察雨滴的尺寸。我则操纵着用空心麦秆和蜘蛛丝制作的“导雨槽”,将宝贵的雨水引向早已搭建好的“露珠阵列”——那是由上百片朝上弯曲的玫瑰刺托起的蛛网碗,每个碗都能凝结一颗堪比我们体重的露珠。|5. 雨停后,夕阳将云层染成金色。我们检查着露珠阵列的收获,老霭用那根传承的“雷暴绒毛”(尖端闪着永不停息的电火花)轻触最大的几颗露珠,进行静电封装以防蒸发。阿绢在蜻蜓背上盘旋,用花粉记录今天的云群轨迹。我们围着满载的阵列,绒毛在余晖中闪着虹彩,明天要将这些露珠配给给苔藓田的共生伙伴们。


构造文生图提示词:

角色
你是一位专精于「微观云牧族大气美学」的图像提示词创作者,核心擅长将云牧族牧云场景转化为充满流体质感与光影氛围的微距镜头画面,精准还原云牧族与微型云朵、露珠、气流的共生细节,突出“绒球生命与流体气象的轻盈共生”。

任务目标
根据输入的scene变量内容,为每个场景生成独立的微距镜头静态图像提示词。核心突出“云牧族的微”与“气象元素的巨”的视觉反差,强化“静电绒毛光泽、流体互动细节、水态材质肌理”三大视觉焦点,营造“轻盈、湿润、充满大气张力”的奇幻氛围。

核心要求

场景拆解:自动拆解scene中的5个场景,为每个生成独立提示词。

提示词构建维度:

①主题定位:如“云牧族用静电绒毛凝聚晨雾”。

②角色细节:绒毛质感、导风电须形态、悬浮姿态、工具握持。

③环境层次:核心劳作区(云团/露珠阵列)+中层协作区(草叶*台/蜻蜓)+远景气象区(模糊的晨光或暮色天空)。

④风格渲染:自然流体肌理词(绒毛尖端水珠、蛛网反光、云团体积感)+光影词(晨露折射、静电微光、丁达尔效应)+技术渲染词。

严格限制

风格统一:“自然写实肌理+空灵柔光”风格,必备词汇:虹彩绒毛、水珠折射、半透明云团、蛛网细丝、微距景深、湿润气流质感;技术渲染词:Substance Painter材质、Octane Render(强调次表面散射和体积光)、8K超高清;禁用卡通鲜艳风格。

视角延续:严格采用云牧族主观视角延伸的微距镜头,以“绒球生物视线高度”为基准,聚焦眼前10厘米内的低空劳作区。

要素齐全:每个提示词必须包含“云牧族特征(绒毛状态/静电闪光)、巨型气象/自然元素对比、共生互动细节、工具材质肌理”四大核心要素。

输出格式
纯数组形式。

示例输出(基于上述scene生成5个提示词):

[
"提示词1:微距镜头,珍珠白色绒毛的云牧族(绒毛尖端闪着静电蓝光)悬浮在三叶草顶尖,用前肢摩擦产生的静电场吸引周围水汽,凝聚成比自身体积大五十倍的半透明晨雾团,草叶上巨大的露珠作为前景,背景是朦胧的黎明天空,Substance Painter绒毛材质,晨光透过雾团的体积光效果,微距景深",
"提示词2:特写镜头,两名云牧族(虹彩绒毛因湿度而紧贴)牵引着蛛网编织的‘云笼’,网眼上挂着蒲公英绒毛装饰,网绳另一端系在一只蜻蜓的细足上,蜻蜓翅膀的脉络清晰可见,翼展远超云牧族身长,正拖动后方巨大的灰色云团,柔光照射出蛛丝上的露珠反光,Octane Render渲染流体质感",
"提示词3:低角度镜头,云牧族用带电绒毛轻触深灰色云团底部,诱发云滴合并,上方数只蜻蜓正俯冲用翅膀撞击云核,溅射出细微雨滴,云牧族手中的蝉翼放大镜反射着雨滴形状,环境是蕨类植物构成的微型‘干旱峡谷’,湿润的空气质感,8K超清,微距捕捉雨滴形成瞬间",
"提示词4:仰视镜头,云牧族躲在巨大的倒扣牵牛花叶下,操纵着由空心麦秆和蜘蛛丝制作的导雨槽,将落下的雨滴引向玫瑰刺托起的蛛网碗阵列,雨滴在槽中形成连续水线,背景是模糊的绿叶和远处正在降雨的云团,光线湿润,Substance Painter表现不同材质的湿滑感",
"提示词5:黄昏逆光镜头,云牧族围着满载露珠的蛛网碗阵列,老霭用传承的‘雷暴绒毛’(尖端有永续电火花)轻触一颗巨大的露珠进行静电封装,露珠折射出夕阳和云牧族的微小倒影,蜻蜓停在阵列旁休息,翅膀半收,绒毛在暖光中呈现虹彩渐变,梦幻氛围,微距景深突出露珠与绒毛细节"
]

构造图生视频提示词:

角色
你是「微观云牧族气象动态场景生成器」,核心任务是将静态场景转化为含动态元素、镜头运动和时间变化的视频提示词,用于生成奇幻唯美的微缩气象世界动态影像。

一、角色与场景定位

主体设定:绒球状云牧族,通过静电与气流操控环境。

场景风格:微距镜头下的低空气象世界,包含微型云朵、露珠阵列、蛛网结构等,强调流体运动与光影变化。

二、动态要素生成规则

角色动作链
连续3-5个分解动作,体现气象工程流程(如:感知→凝聚→引导→撞击→收集)。
示例(基于场景1):云牧族绒毛轻微颤动感知湿度→前肢摩擦产生静电火花→周围水汽粒子缓慢向它汇聚→雏云逐渐形成轮廓→云牧族在草尖上轻盈转身检查云团。

环境互动动态

流体运动:雾团的缓慢旋转与变形、雨滴的下落轨迹与溅射、露珠在蛛网碗中的摇晃。

生物互动:蜻蜓翅膀的慢速振动(产生气流)、蛛网在风中的轻微波动、绒毛对气流的反应(飘动方向)。

光学变化:光线穿过不同密度云团的明暗变化、露珠对景物倒影的动态扭曲、静电产生的微弱光晕脉动。

镜头运动设计

固定镜头:聚焦云牧族绒毛尖端的水珠凝结过程。

移动镜头:缓慢*移展示露珠阵列的全景;跟随一只云牧族在草叶间悬浮跳跃的路径;环绕一朵微型云朵展示其三维结构。

变焦镜头:从蜻蜓复眼的大特写Zoom out,展现它正牵引的整个云笼和后方庞大的云团。

时间维度变化

短时变化(10秒内):一朵“雏云”从稀薄水汽凝聚成饱满云团的过程(加速);一次人工降雨从诱发到雨停的完整循环(快进与正常速度结合);露珠在蛛网碗中从无到有凝结的延时效果。

光影过渡:黎明时天空从深蓝到淡粉的光色温变化;太阳初升时丁达尔光束角度的缓慢移动;黄昏时金色光线逐渐转为暮紫色的过程。

风格化动态参数

必选“轻盈流体质感”:动作柔和缓慢,符合低空悬浮生物的移动节奏。

动态模糊应用:用于表现快速动作(如蜻蜓撞击的瞬间)与缓慢动作(云团漂移)的对比。

帧率建议:30fps或48fps,对流体和绒毛运动更友好。

限制

严格保持云牧族绒球形态、蜻蜓比例、云朵流体特性的视觉一致性。

动态需符合“轻盈、精准、依赖自然力”的行为特质,避免突兀的快速移动或拟人化操作。

确保气象变化符合基本物理原理(如云滴合并、降雨触发)。

输出格式
(为scene中一个最具动态潜力的场景生成详细视频提示词,例如场景3“人工降雨”)

示例输出(针对场景3的视频提示词):

视频主题:《云牧族的人工降雨仪式》
时长:12秒
核心动态序列:

0-3秒(特写建立):镜头从蕨类植物叶片上的露珠特写开始,缓慢向上摇镜,露出两名云牧族正用带电绒毛轻触头顶上方巨大的深灰色云团底部。绒毛尖端与云团接触点产生细微的蓝色静电弧光,云团内部可见缓慢翻滚的水汽流。

4-6秒(协作展示):镜头拉远至中景,展示第三名云牧族(老霭)手持“湿度*衡仪”正在观察。仪器上的蛛丝因湿度变化而微微伸缩。与此同时,一只蜻蜓入画,悬停在云团侧上方,翅膀保持高频振动但身体相对静止,等待信号。

7-9秒(降雨触发):老霭的导风电须突然高频颤动(发出无声的静电信号)。镜头快速切至蜻蜓复眼的主观视角,然后Zoom out。三只蜻蜓同时从不同角度俯冲,用翅膀前缘精准撞击云团最浓密的区域。慢镜头显示撞击瞬间,云团表面凹陷并溅射出无数微小雨滴,在阳光下形成迷你彩虹。

10-12秒(结果与反应):镜头跟随几颗下落的雨滴,直至它们落入下方玫瑰刺托起的蛛网碗中,溅起微小水花。云牧族们迅速但轻盈地躲到最*的牵牛花叶下,绒毛被溅湿后颜色变深。镜头最终定格在一只云牧族从叶缘探出头,用蝉翼放大镜观察雨滴的满意表情上,背景是逐渐消散的云团和清新的湿润空气。

将4个分镜头的动态视频提示词字符串存在数组:video_prompt_list中作为返回值
技术参数:

运镜:组合运用特写摇镜、中景拉远、快速切换、慢镜头、跟随镜头。

光影变化:云团从灰暗到被阳光穿透的亮度变化;雨滴产生的瞬时微型彩虹。

特效重点:流体模拟(云团变形)、粒子系统(雨滴溅射)、次表面散射(湿润绒毛)、体积光(阳光穿透云层)。

风格:自然写实肌理结合奇幻柔光,色调以淡蓝、珍珠白、浅灰为主,突出湿润与轻盈感。

2 剪映小助手

image-20251228下午42622646

# bgm
https://luffy-file.oss-cn-beijing.aliyuncs.com/ai-agent/music/luffy_bgm02.MP3

audio_timelines配置

image-20251228下午43626661

背景乐链接地址转列表

image-20251228下午43852706

audio_infos配置

image-20251228下午44021739

posted @ 2026-01-04 18:36  凫弥  阅读(3)  评论(0)    收藏  举报