AI 视频总结 Skill：从看视频到"偷懒"的艺术

一个让你告别手动记笔记的 Cursor Agent Skill，支持 B站、抖音、小红书、YouTube 多平台视频总结，完全免费。

前言：看视频学习的痛

不知道你有没有这样的经历——

打开一个 40 分钟的技术视频，心想"这次一定好好做笔记"。结果 10 分钟后，你在暂停、截图、打字之间反复横跳，笔记写了三行，视频才看了一半，手已经废了。

更痛苦的是，你做完笔记回头一看：写的啥？这是笔记还是甲骨文？

我之前写过一篇关于 Cursor Agent Skill 安装的文章（传送门），当时就在想：既然 Skill 能让 AI 拥有各种超能力，那能不能让它帮我看视频、做笔记？

于是，这个故事就开始了。

竞品调研：钱包在哭泣

在动手造轮子之前，作为一个合格的程序员，我当然先调研了市面上的工具：

工具	优点	缺点
BibiGPT	总结质量高，支持多平台	要钱，用多了钱包会痛
Glarity	浏览器插件，方便	也要钱，免费额度感人
通义听悟	阿里出品，中文友好	同样要钱，而且有使用限制
Kimi	免费！	不支持视频总结（你在逗我？）

总结下来就是：好用的都要钱，免费的不好用。

BibiGPT 确实是这里面最能打的，总结的质量和排版都很不错。但问题是，我一个月要看几十个技术视频，按次收费的话，这钱够我多喝好几杯咖啡了。

Kimi 我试了一下视频链接解析不来

于是我想：既然 AI 这么强，我为什么不自己做一个？ 白嫖自己的算力，想看多少看多少，笔记格式还能自己定义。

说干就干。

项目介绍：video-summarizer

这就是我做的 Cursor Agent Skill：video-summarizer。

GitHub 地址：https://github.com/keepongo/video-summarizer.git

它是一个安装在 Cursor 里的 Agent Skill，你只需要丢一个视频链接给 AI，它就能自动：

提取视频字幕/语音转文字（三层降级策略，总有一个能用）
抽取关键帧截图（每段配图，再也不是纯文字笔记）
生成结构化 Markdown 笔记（自动保存到本地）

支持的平台：

B站 — 公开 API，无需 Cookie，直接起飞
抖音 — 直接解析移动端页面，无需登录
小红书 — 同上，移动端直接拿数据
YouTube — 字幕 API 可用（IP 有限制，后面说）
以及所有 yt-dlp 支持的平台

效果展示：有图有真相

光说不练假把式。下面是几个实际使用的效果截图，大家感受一下。

B站：大模型 Token 科普视频

给 Skill 丢了一个 B站的大模型 Token 科普视频链接，它直接提取了字幕和关键帧。

上图是视频中对 Token 概念的可视化讲解——"我喜欢唱、跳、Rap和篮球"被拆分成一个个 Token，经典永不过时。AI 把这些关键画面都精准地抽出来了。

DeepSeek 拿着剑，GPT 拿着电锯——这画风，一看就是讲大模型"军备竞赛"的。Skill 自动抓到了这个灵魂画面，配合生成的文字总结，不用看视频就能 get 到精髓。

B站是最省心的平台，公开 API + WBI 签名就搞定了，完全不需要登录或 Cookie。字幕直接从官方 API 拿，又快又准。

抖音：《奔跑吧》第十三季

直接未登录抖音复制链接给cursor。(这时候刚刚完成调整处理抖音链接，没想到截图的事。)
后面增加截图功能，一样按要求保存到D盘的images文件夹

抖音的实现挺有意思：直接解析移动端分享页面的 _ROUTER_DATA，拿到视频的 CDN 直链，不需要 Cookie，不需要登录，甚至不需要 yt-dlp（当然字幕还是得靠 Whisper 转录，毕竟抖音没有字幕文件）。

小红书：程序员周末 Vlog

直接将链接复制粘贴到cursor，前面由于按照一开始方式解析，遇到Cookie限制

小红书向来是最"反爬"的平台之一。前面抖音已经实现该方式了，所以我知道它大概率会按照前面处理抖音的方式，使用浏览器或移动端访问，于是我发了这句。这个 Skill 就换了个思路——不走 PC 端，直接请求移动端分享页面。

最后生成md文档，内容简要干练

小红书的解析方式和抖音类似，从 window.__SETUP_SERVER_STATE__ 中提取视频元数据和 CDN 直链。标题、作者、描述、视频地址，一步到位，连 Cookie 都不用。

YouTube：

YouTube 的情况比较特殊。好消息是：字幕 API 完全可用，大部分有字幕的视频都能直接提取。坏消息是：国内 IP 访问 YouTube 你懂的，需要会上网。

如果你有**，YouTube 视频的总结效果也是非常不错的。没有字幕的视频可以通过 yt-dlp 下载音频后用 Whisper 本地转录。

核心亮点

三层降级提取策略

平台专属 API（最快最准）
    ↓ 失败则
yt-dlp 提取字幕
    ↓ 失败则
Whisper 语音转文字（本地或API）

不管视频有没有字幕，总有办法把内容给你扒出来。

智能缓存

提取结果缓存 7 天（可配置），重复链接直接读缓存
截图同样有 TTL，自动过期清理
手动清理：python video_subtitle.py --clear-cache

关键帧截图

每个视频自动提取关键帧，笔记不再是纯文字。配合 AI 生成的分段总结，每个章节配一张图，阅读体验拉满。

完全免费

不需要任何 API Key（除非你要用 OpenAI 的 Whisper API）
B站、抖音、小红书都不需要 Cookie 或登录
本地 Whisper 转录完全离线，不花一分钱

快速上手

把 Skill 放到你的 Cursor skills 目录
安装依赖：

pip install faster-whisper yt-dlp

确保 ffmpeg 在 PATH 中
给 Cursor 丢视频链接，然后说"帮我总结这个视频"

就这么简单。

配置文件 config.json：

{
    "whisper_mode": "local",
    "whisper_model": "base",
    "language": "zh",
    "extract_frames": true,
    "frames_per_video": 6,
    "cache_ttl_days": 7
}

详细教程可以看github仓库的readme.md和introduce.md,由详细介绍各个文件和安装使用教程。目前支持这么多视频链接解析，还支持截图，同时笔记格式可以自行更替为自己喜欢的（我是按照BibiGPT格式喂的）。同时大家也可以按需扩展该skill的功能，比如后续添加导出其他文件格式等，欢迎大家创建分支提PR或评论。

写在最后

说实话，做这个 Skill 的过程比我预想的有意思得多。每个平台的"反爬"策略都不一样，搞定它们的过程就像在打怪升级：

B站：最老实，公开 API 随便用 —— 新手村
抖音：移动端页面藏着宝藏数据 —— 副本 BOSS
小红书：和抖音类似的思路，但得找对入口 —— 隐藏关卡
YouTube：技术上没问题，但你的网络得先过关 —— DLC（自费）

现在我看视频学习的流程变成了：复制链接 → 丢给 Cursor/Claude → 喝杯咖啡 → 回来看笔记。

生成后阅览一下还可以分享到自己的博客记录一下。

效率提升了多少不好说，但摸鱼时间确实多了不少。

如果你也受够了手动做视频笔记，欢迎试试：

GitHub：https://github.com/keepongo/video-summarizer.git

Star 一下，你的 star 就是我继续偷懒的动力。

本文由一个不想手动做笔记的程序员撰写，AI 辅助排版。如有 bug，请提 issue，别骂我。（本文由ai生成，但括号这句话是我写的）

posted @ 2026-02-25 17:26 YI羊阅读(1446) 评论(0) 收藏举报

刷新页面返回顶部

tomMan

AI 视频总结 Skill：从看视频到"偷懒"的艺术

AI 视频总结 Skill：从看视频到"偷懒"的艺术

前言：看视频学习的痛

竞品调研：钱包在哭泣

项目介绍：video-summarizer

效果展示：有图有真相

B站：大模型 Token 科普视频

抖音：《奔跑吧》第十三季

小红书：程序员周末 Vlog

YouTube：

核心亮点

三层降级提取策略

智能缓存

关键帧截图

完全免费

快速上手

写在最后

公告