【复盘】从想法到开源:24小时0手写代码,为AI短视频造了一个管理平台

吐槽:写这篇文章的时间,比我开发这个项目还要久。😂

从 2022 到 2026,我算是一路追着 AI 跑的那批程序员。

IDE 从 VS Studio 集成 Copilot、Cursor、Augment、Windsurf、Antigravity……折腾一圈,最后又回归 VS Code + Copilot
模型从 GPT-3.5,到 Claude Code、Grok、DeepSeek、Qwen;
生图/视频从 Midjourney、Stable Diffusion,到 Veo、即梦、可灵、Banana Pro……一路追着体验更新。

(从疯狂白嫖到热衷付费,堕落了呀......)

面对 AI,我的心情一直是五味杂陈:

  • 酸: 以前为了优化性能熬夜死磕源码、数据结构;现在 AI 给出的代码比我写的好多了,帮我干活的同时还给我情绪体验! 有种“十年寒窗不如 AI 一瞬”的落差感,真是辛酸

  • 甜: 效率贼高,以前要磨半天的功能,现在几分钟就能跑起来,爽歪歪

  • 苦: AI 强归强,token也是真的贵,不够用根本不够用,公司还不给报销(命苦)

  • 辣: 节奏越来越快,周期缩短、并行项目变多,脑子每天都在高负载运转

  • 咸: 时代交替里,一个十年老兵不想掉队的眼泪

在这三四年最大的感受就是:时间好快,时代变化更快,快的我都来不及拥抱变化😵💫


1)言归正传:24小时,0 手写代码,我做了个啥?

我做了一个本地客户端项目:Storyboard:镜头管理板。 目标很简单:面向短视频创作者与制作团队的本地分镜工作台:从爆款视频导入(模仿对象)、抽帧、模型切换、AI 分析、图像/视频生成,到批量任务与成片合成,一条链路完成管理与输出。

我在这个项目开发中用到的工具/模型:

  • Chat 模型:ChatGPT / Gemini / DeepSeek

  • UI 设计:Figma / 墨刀

  • 编程模型:Claude Code 4.5 Sonnet / GPT-5.2 Codex

  • 编程工具:VS Code Copilot / Codex

技术栈: Avalonia + SQLite + EF Core + .NET 8+ Semantic Kernel + Provider

Talk is cheap. Show me the code.

主页面:


2)项目背景:AI 短视频素材管理混乱

最近 AI 漫剧、AI 视频火得离谱,我也去玩了几天。

实操中遇见问题:做一条“差不多”的视频,往往要几十上百个镜头图片,来回切模型、反复抽卡:

  • 素材散落各处

  • 提示词和成片分离,后续无法追溯

  • 多个项目混在一起,管理混乱

  • 一条视频下来,重复劳动占了大头

然后程序员的“职业病”就发作了: 能不能把它流程化、批量化、自动化?

于是我想做一个“镜头管理软件”: 把 爆款视频导入、智能抽帧、AI模型切换、AI 分析、批量任务、成片合成 全部集成在本地。


3)需求整理:梳理操作流程

一开始我的想法:

对参考视频做全局理解,生成多个分镜脚本
* 用户可以编辑分镜脚本
* 每个分镜选择不同模型:首尾帧→图生视频→配音→合成
* 最终形成一张“分镜表格”:镜头号、时长、首尾帧提示词、镜头类型、画面、动作、场景等

我把这套想法丢给 ChatGPT、Gemini、DeepSeek 来回拆台纠错。最后收敛成一条更现实的流程:

最终确定的核心链路:

输入: 用户上传参考视频
处理链:
    视频理解与分镜:传统 CV(镜头切换检测)切分 + 多模态模型辅助描述,生成初步分镜表
    分镜编辑:表格内所有字段都可编辑,重点是“画面描述/关键帧提示词”
    生成链:
        首尾帧:提示词 → SD / MJ 等生成关键帧
        动作:关键帧 + 动作描述 → 图生视频模型生成片段
        音频:抽取原音频或 TTS 生成新音频
视频合成:片段 + 音频对齐 → 输出成片

4)核心功能清单

和AI继续敲定功能细节,让AI整理后给我完整功能文档(纯享版)。

摘录简化后部分功能:

  • 项目管理:创建/打开/最近项目/资源目录

  • 视频导入:元信息解析(时长/分辨率/帧率)

  • 抽帧:定数抽帧 / 等时抽帧 / 关键帧抽取

  • 分镜表格:镜头号/时长/画面/动作/场景/提示词/模型选择/状态

  • 批量生成:任务队列/并发/失败重试/日志追踪

  • 资源管理:图片/视频/提示词版本/可追溯

  • 合成出片:片段拼接/音频对齐/导出

详细文件地址:功能文档


5)技术选型:为什么做客户端?

我主要纠结了四个问题:

td {white-space:nowrap;border:0.5pt solid #dee0e3;font-size:10pt;font-style:normal;font-weight:normal;vertical-align:middle;word-break:normal;word-wrap:normal;}
我想要的目标 放弃原因(不选的坑) 最终选择
Web vs 客户端 快速出 UI + 本地高性能处理 Web 需要前后分离、部署繁琐;
权限/存储/任务队列链路复杂,
且 ffmpeg/OpenCV 本地吃资源更适合客户端
客户端
Python vs .NET 工程化、可维护、可扩展 Python 工具链强但客户端工程化、结构化维护成本更高;
.NET本命+年度语言,必须打Call
.NET 8
WPF vs Avalonia 跨平台 + 学新技术 WPF 不跨平台,限制未来用户范围 Avalonia
WebView vs 原生复刻 UI 还原度 + 可维护性验证 WebView性能/体验不确定 Avalonia 原生复刻

6)UI 设计:先用 AI 做“能跑的设计稿”

拿到核心功能后,我直接在 Figma / 墨刀 走 vibe coding: 自然语言沟通需求 → 输出可运行的 React 项目 → 这就是“设计稿 + 交互稿 + 可运行原型”。

我就将功能贴到对话框,创建Web界面。就得到两个可运行原型:

墨刀最终成品截图:

figma:

导出成React项目文件


7)代码实现:我的 0 手写代码流水线

我基本按这个“AI协作流水线”跑:

  1. 新建项目文件夹,把功能文档复制进来,把 React 原型项目拖进来

  1. UI 复刻阶段: 用 Avalonia 对照 React 逐页面 1:1 还原(不允许脑补,不允许简化)。 这个模块用Claude Code 4.5 Sonnet 还原度比较高。

  1. 进行局部UI修复。截图、引入相关文件,AI修复

  2. 数据贯通阶段: 删除 React 项目,只保留 UI;要求 SQLite + EF Core,前后端字段一致,数据流转跑通

  3. 切换另一个模型做全量 code review(结构、边界、错误处理、可维护性)

  4. 修复 → 运行成功 → 打包 → 开源


8)个人感悟:

AI 拉平了写代码的门槛,但“把事做成”的能力依然稀缺。

对程序人来讲:编程能力失去了稀缺性,在AI面前逐渐消退。

但是对想做产品的人,黄金时代到了:

趁AI尚未完全自主、普通人还不能轻松驾驭的窗口期,

我们可以将灵感,快速做成能运行、能验证的原型。

抓住这个时代红利,从技术转向产品、转向市场。

我做 Storyboard,是想证明:当灵感闪现,我能以最快速度让它落地成真。

如果你也想快速落地产品。

如果你也想做AI视频/漫剧。

欢迎来提需求、交PR,一起把这个工具打磨得更趁手。

想法不值钱,做出来才值钱。

现在,正是动手的最好时候。

posted @ 2026-01-13 16:09  Broder  阅读(3)  评论(0)    收藏  举报