【复盘】从想法到开源：24小时0手写代码，为AI短视频造了一个管理平台

吐槽：写这篇文章的时间，比我开发这个项目还要久。😂

从 2022 到 2026，我算是一路追着 AI 跑的那批程序员。

IDE 从 VS Studio 集成 Copilot、Cursor、Augment、Windsurf、Antigravity……折腾一圈，最后又回归 VS Code + Copilot。
模型从 GPT-3.5，到 Claude Code、Grok、DeepSeek、Qwen；
生图/视频从 Midjourney、Stable Diffusion，到 Veo、即梦、可灵、Banana Pro……一路追着体验更新。

（从疯狂白嫖到热衷付费，堕落了呀......）

面对 AI，我的心情一直是五味杂陈：

酸：以前为了优化性能熬夜死磕源码、数据结构；现在 AI 给出的代码比我写的好多了，帮我干活的同时还给我情绪体验！有种“十年寒窗不如 AI 一瞬”的落差感，真是辛酸
甜：效率贼高，以前要磨半天的功能，现在几分钟就能跑起来，爽歪歪
苦： AI 强归强，token也是真的贵，不够用根本不够用，公司还不给报销（命苦）
辣：节奏越来越快，周期缩短、并行项目变多，脑子每天都在高负载运转
咸：时代交替里，一个十年老兵不想掉队的眼泪

在这三四年最大的感受就是：时间好快，时代变化更快，快的我都来不及拥抱变化😵💫。

1）言归正传：24小时，0 手写代码，我做了个啥？

我做了一个本地客户端项目：Storyboard：镜头管理板。目标很简单：面向短视频创作者与制作团队的本地分镜工作台：从爆款视频导入（模仿对象）、抽帧、模型切换、AI 分析、图像/视频生成，到批量任务与成片合成，一条链路完成管理与输出。

我在这个项目开发中用到的工具/模型：

Chat 模型：ChatGPT / Gemini / DeepSeek
UI 设计：Figma / 墨刀
编程模型：Claude Code 4.5 Sonnet / GPT-5.2 Codex
编程工具：VS Code Copilot / Codex

技术栈： Avalonia + SQLite + EF Core + .NET 8+ Semantic Kernel + Provider

Talk is cheap. Show me the code.

主页面：

2）项目背景：AI 短视频素材管理混乱

最近 AI 漫剧、AI 视频火得离谱，我也去玩了几天。

实操中遇见问题：做一条“差不多”的视频，往往要几十上百个镜头图片，来回切模型、反复抽卡：

素材散落各处
提示词和成片分离，后续无法追溯
多个项目混在一起，管理混乱
一条视频下来，重复劳动占了大头

然后程序员的“职业病”就发作了： 能不能把它流程化、批量化、自动化？

于是我想做一个“镜头管理软件”：把 爆款视频导入、智能抽帧、AI模型切换、AI 分析、批量任务、成片合成 全部集成在本地。

3）需求整理：梳理操作流程

一开始我的想法：

对参考视频做全局理解，生成多个分镜脚本
* 用户可以编辑分镜脚本
* 每个分镜选择不同模型：首尾帧→图生视频→配音→合成
* 最终形成一张“分镜表格”：镜头号、时长、首尾帧提示词、镜头类型、画面、动作、场景等

我把这套想法丢给 ChatGPT、Gemini、DeepSeek 来回拆台纠错。最后收敛成一条更现实的流程：

最终确定的核心链路：

输入： 用户上传参考视频
处理链：
    视频理解与分镜：传统 CV（镜头切换检测）切分 + 多模态模型辅助描述，生成初步分镜表
    分镜编辑：表格内所有字段都可编辑，重点是“画面描述/关键帧提示词”
    生成链：
        首尾帧：提示词 → SD / MJ 等生成关键帧
        动作：关键帧 + 动作描述 → 图生视频模型生成片段
        音频：抽取原音频或 TTS 生成新音频
视频合成：片段 + 音频对齐 → 输出成片

4）核心功能清单

和AI继续敲定功能细节，让AI整理后给我完整功能文档（纯享版）。

摘录简化后部分功能：

项目管理：创建/打开/最近项目/资源目录
视频导入：元信息解析（时长/分辨率/帧率）
抽帧：定数抽帧 / 等时抽帧 / 关键帧抽取
分镜表格：镜头号/时长/画面/动作/场景/提示词/模型选择/状态
批量生成：任务队列/并发/失败重试/日志追踪
资源管理：图片/视频/提示词版本/可追溯
合成出片：片段拼接/音频对齐/导出

详细文件地址:功能文档。

5）技术选型：为什么做客户端？

我主要纠结了四个问题：

td {white-space:nowrap;border:0.5pt solid #dee0e3;font-size:10pt;font-style:normal;font-weight:normal;vertical-align:middle;word-break:normal;word-wrap:normal;}


	我想要的目标	放弃原因（不选的坑）	最终选择
Web vs 客户端	快速出 UI + 本地高性能处理	Web 需要前后分离、部署繁琐；权限/存储/任务队列链路复杂，且 ffmpeg/OpenCV 本地吃资源更适合客户端	客户端
Python vs .NET	工程化、可维护、可扩展	Python 工具链强但客户端工程化、结构化维护成本更高； .NET本命+年度语言，必须打Call	.NET 8
WPF vs Avalonia	跨平台 + 学新技术	WPF 不跨平台，限制未来用户范围	Avalonia
WebView vs 原生复刻	UI 还原度 + 可维护性验证	WebView性能/体验不确定	Avalonia 原生复刻

6）UI 设计：先用 AI 做“能跑的设计稿”

拿到核心功能后，我直接在 Figma / 墨刀 走 vibe coding：自然语言沟通需求 → 输出可运行的 React 项目 → 这就是“设计稿 + 交互稿 + 可运行原型”。

我就将功能贴到对话框，创建Web界面。就得到两个可运行原型：

墨刀最终成品截图：

figma：

导出成React项目文件

7）代码实现：我的 0 手写代码流水线

我基本按这个“AI协作流水线”跑：

新建项目文件夹，把功能文档复制进来，把 React 原型项目拖进来

UI 复刻阶段： 用 Avalonia 对照 React 逐页面 1:1 还原（不允许脑补，不允许简化）。这个模块用Claude Code 4.5 Sonnet 还原度比较高。

进行局部UI修复。截图、引入相关文件，AI修复
数据贯通阶段： 删除 React 项目，只保留 UI；要求 SQLite + EF Core，前后端字段一致，数据流转跑通
切换另一个模型做全量 code review（结构、边界、错误处理、可维护性）
修复 → 运行成功 → 打包 → 开源

8）个人感悟：

AI 拉平了写代码的门槛，但“把事做成”的能力依然稀缺。

对程序人来讲：编程能力失去了稀缺性，在AI面前逐渐消退。

但是对想做产品的人，黄金时代到了：

趁AI尚未完全自主、普通人还不能轻松驾驭的窗口期，

我们可以将灵感，快速做成能运行、能验证的原型。

抓住这个时代红利，从技术转向产品、转向市场。

我做 Storyboard，是想证明：当灵感闪现，我能以最快速度让它落地成真。

如果你也想快速落地产品。

如果你也想做AI视频/漫剧。

欢迎来提需求、交PR，一起把这个工具打磨得更趁手。

想法不值钱，做出来才值钱。

现在，正是动手的最好时候。

posted @ 2026-01-13 16:09 Broder 阅读(3) 评论(0) 收藏举报

刷新页面返回顶部

沐尘。

梦想还是要有的，万一实现了呢？