AI 视频总结 Skill:从看视频到"偷懒"的艺术

AI 视频总结 Skill:从看视频到"偷懒"的艺术

一个让你告别手动记笔记的 Cursor Agent Skill,支持 B站、抖音、小红书、YouTube 多平台视频总结,完全免费。


前言:看视频学习的痛

不知道你有没有这样的经历——

打开一个 40 分钟的技术视频,心想"这次一定好好做笔记"。结果 10 分钟后,你在暂停、截图、打字之间反复横跳,笔记写了三行,视频才看了一半,手已经废了。

更痛苦的是,你做完笔记回头一看:写的啥?这是笔记还是甲骨文?

我之前写过一篇关于 Cursor Agent Skill 安装的文章(传送门),当时就在想:既然 Skill 能让 AI 拥有各种超能力,那能不能让它帮我看视频、做笔记

于是,这个故事就开始了。


竞品调研:钱包在哭泣

在动手造轮子之前,作为一个合格的程序员,我当然先调研了市面上的工具:

工具 优点 缺点
BibiGPT 总结质量高,支持多平台 要钱,用多了钱包会痛
Glarity 浏览器插件,方便 也要钱,免费额度感人
通义听悟 阿里出品,中文友好 同样要钱,而且有使用限制
Kimi 免费! 不支持视频总结(你在逗我?)

总结下来就是:好用的都要钱,免费的不好用。

BibiGPT 确实是这里面最能打的,总结的质量和排版都很不错。但问题是,我一个月要看几十个技术视频,按次收费的话,这钱够我多喝好几杯咖啡了。

image

Kimi 我试了一下视频链接解析不来

image

于是我想:既然 AI 这么强,我为什么不自己做一个? 白嫖自己的算力,想看多少看多少,笔记格式还能自己定义。

说干就干。


项目介绍:video-summarizer

这就是我做的 Cursor Agent Skill:video-summarizer

GitHub 地址:https://github.com/keepongo/video-summarizer.git

它是一个安装在 Cursor 里的 Agent Skill,你只需要丢一个视频链接给 AI,它就能自动:

  1. 提取视频字幕/语音转文字(三层降级策略,总有一个能用)
  2. 抽取关键帧截图(每段配图,再也不是纯文字笔记)
  3. 生成结构化 Markdown 笔记(自动保存到本地)

支持的平台:

  • B站 — 公开 API,无需 Cookie,直接起飞
  • 抖音 — 直接解析移动端页面,无需登录
  • 小红书 — 同上,移动端直接拿数据
  • YouTube — 字幕 API 可用(IP 有限制,后面说)
  • 以及所有 yt-dlp 支持的平台

效果展示:有图有真相

光说不练假把式。下面是几个实际使用的效果截图,大家感受一下。

B站:大模型 Token 科普视频

image

给 Skill 丢了一个 B站的大模型 Token 科普视频链接,它直接提取了字幕和关键帧。
image

上图是视频中对 Token 概念的可视化讲解——"我喜欢唱、跳、Rap和篮球"被拆分成一个个 Token,经典永不过时。AI 把这些关键画面都精准地抽出来了。
image

DeepSeek 拿着剑,GPT 拿着电锯——这画风,一看就是讲大模型"军备竞赛"的。Skill 自动抓到了这个灵魂画面,配合生成的文字总结,不用看视频就能 get 到精髓。
image

B站是最省心的平台,公开 API + WBI 签名就搞定了,完全不需要登录或 Cookie。字幕直接从官方 API 拿,又快又准。


抖音:《奔跑吧》第十三季

  • 直接未登录抖音复制链接给cursor。(这时候刚刚完成调整处理抖音链接,没想到截图的事。)
    image

  • 后面增加截图功能,一样按要求保存到D盘的images文件夹
    image

抖音的实现挺有意思:直接解析移动端分享页面的 _ROUTER_DATA,拿到视频的 CDN 直链,不需要 Cookie,不需要登录,甚至不需要 yt-dlp(当然字幕还是得靠 Whisper 转录,毕竟抖音没有字幕文件)。


小红书:程序员周末 Vlog

直接将链接复制粘贴到cursor,前面由于按照一开始方式解析,遇到Cookie限制

image

小红书向来是最"反爬"的平台之一。前面抖音已经实现该方式了,所以我知道它大概率会按照前面处理抖音的方式,使用浏览器或移动端访问,于是我发了这句。这个 Skill 就换了个思路——不走 PC 端,直接请求移动端分享页面。

image

image

最后生成md文档,内容简要干练
image

小红书的解析方式和抖音类似,从 window.__SETUP_SERVER_STATE__ 中提取视频元数据和 CDN 直链。标题、作者、描述、视频地址,一步到位,连 Cookie 都不用。


YouTube:

YouTube 的情况比较特殊。好消息是:字幕 API 完全可用,大部分有字幕的视频都能直接提取。坏消息是:国内 IP 访问 YouTube 你懂的,需要会上网。

image

image

如果你有梯子,YouTube 视频的总结效果也是非常不错的。没有字幕的视频可以通过 yt-dlp 下载音频后用 Whisper 本地转录。


核心亮点

三层降级提取策略

平台专属 API(最快最准)
    ↓ 失败则
yt-dlp 提取字幕
    ↓ 失败则
Whisper 语音转文字(本地或API)

不管视频有没有字幕,总有办法把内容给你扒出来。

智能缓存

  • 提取结果缓存 7 天(可配置),重复链接直接读缓存
  • 截图同样有 TTL,自动过期清理
  • 手动清理:python video_subtitle.py --clear-cache

关键帧截图

每个视频自动提取关键帧,笔记不再是纯文字。配合 AI 生成的分段总结,每个章节配一张图,阅读体验拉满。

完全免费

  • 不需要任何 API Key(除非你要用 OpenAI 的 Whisper API)
  • B站、抖音、小红书都不需要 Cookie 或登录
  • 本地 Whisper 转录完全离线,不花一分钱

快速上手

  1. 把 Skill 放到你的 Cursor skills 目录
  2. 安装依赖:
pip install faster-whisper yt-dlp
  1. 确保 ffmpeg 在 PATH 中
  2. 给 Cursor 丢视频链接,然后说"帮我总结这个视频"

就这么简单。

配置文件 config.json

{
    "whisper_mode": "local",
    "whisper_model": "base",
    "language": "zh",
    "extract_frames": true,
    "frames_per_video": 6,
    "cache_ttl_days": 7
}

详细教程可以看github仓库的readme.md和introduce.md,由详细介绍各个文件和安装使用教程。目前支持这么多视频链接解析,还支持截图,同时笔记格式可以自行更替为自己喜欢的(我是按照BibiGPT格式喂的)。同时大家也可以按需扩展该skill的功能,比如后续添加导出其他文件格式等,欢迎大家创建分支提PR或评论。


写在最后

说实话,做这个 Skill 的过程比我预想的有意思得多。每个平台的"反爬"策略都不一样,搞定它们的过程就像在打怪升级:

  • B站:最老实,公开 API 随便用 —— 新手村
  • 抖音:移动端页面藏着宝藏数据 —— 副本 BOSS
  • 小红书:和抖音类似的思路,但得找对入口 —— 隐藏关卡
  • YouTube:技术上没问题,但你的网络得先过关 —— DLC(自费)

现在我看视频学习的流程变成了:复制链接 → 丢给 Cursor/Claude → 喝杯咖啡 → 回来看笔记

生成后阅览一下还可以分享到自己的博客记录一下。

image

效率提升了多少不好说,但摸鱼时间确实多了不少

如果你也受够了手动做视频笔记,欢迎试试:

GitHub:https://github.com/keepongo/video-summarizer.git

Star 一下,你的 star 就是我继续偷懒的动力。


本文由一个不想手动做笔记的程序员撰写,AI 辅助排版。如有 bug,请提 issue,别骂我。(本文由ai生成,但括号这句话是我写的)

posted @ 2026-02-25 17:26  YI羊  阅读(0)  评论(0)    收藏  举报