ArchiveBox：自建网页归档工具，把互联网存进本地硬盘

互联网上的内容每天都在消失。一篇你昨天收藏的文章，今天点进去可能就是404。一个你常用的工具站，过几个月域名就过期了。ArchiveBox 就是专门解决这个问题的，目前在 GitHub 上收获了 2.7 万 Star。

我自己有个习惯，看到好的技术文章会先点个收藏，但收藏夹里的链接经常失效。后来开始用笔记工具剪藏，可那些工具要么收费，要么格式受限，数据还不是自己的。ArchiveBox 的思路不一样：它让你在自己的服务器或电脑上，把网页完整保存下来，数据完全归你所有。

核心功能：多格式冗余保存

ArchiveBox 不是简单地下载一个 HTML 文件就完事。它会对每个 URL 生成多种格式的备份：原始 HTML、单文件 HTML、截图 PNG、PDF、纯文本 TXT、WARC 归档格式，还有 JSON 元数据。这些格式都是标准开放的，即使 ArchiveBox 以后不维护了，你存下来的文件照样能打开。

它还能识别页面里的内容类型并提取：

普通网页：保存原始 HTML、CSS、JS、文章正文、标题、favicon
社交媒体和新闻：提取帖子内容、评论、作者、图片
YouTube、SoundCloud 等：下载 MP3/MP4、字幕、缩略图、元数据
GitHub、GitLab 链接：克隆源码、README、图片

为什么值得用？

第一，数据自主权。 很多在线剪藏服务说关就关，或者突然改收费政策。ArchiveBox 是自托管的，代码开源，数据存在你自己的硬盘上，谁也拿不走。

第二，输入来源丰富。 你可以一条一条手动加 URL，也可以批量导入书签、浏览器历史、RSS 订阅、Pocket/Pinboard 收藏。配合浏览器扩展，看到想保存的页面点一下就行。还能设置定时任务，自动归档指定来源的新内容。

第三，输出格式耐久。 它用的都是 HTML、PDF、PNG、TXT、JSON 这类几十年后仍然可读的标准格式。没有私有格式锁定，不依赖特定软件。默认还会同时提交一份到 archive.org，双重保险。

部署方式

ArchiveBox 支持 Docker Compose、Docker 单容器、pip 安装、apt 安装等多种方式。最推荐的是 Docker Compose，一条命令就能跑起来，自带 Web 管理界面。也提供纯 CLI 模式，适合喜欢命令行的用户。还有 REST API 和 Python API，方便对接其他工具。

安装门槛不高。有 Docker 的话，复制文档里的 compose 文件，运行初始化命令，再启动服务，浏览器打开本地地址就能用。不想用 Docker 的，pip 直接安装也行，Linux 和 macOS 都支持，Windows 建议走 Docker。

实际体验

从文档和社区的反馈来看，ArchiveBox 对常规网页的归档效果很完整，页面结构、图片、样式都能保留。对于需要登录才能看的内容，它也支持配置 Cookie 和 Chrome 用户数据目录来抓取。复杂动态页面（比如大量 JS 渲染的单页应用）效果会打折扣，但日常的技术博客、新闻文章、文档页面都没问题。

项目本身维护活跃，文档写得详细，社区里也有不少人分享使用经验。作为一个 501(c)(3) 非营利组织运营的项目，它没有商业变现压力，发展方向比较纯粹。

适合谁用

如果你经常收藏网页但担心链接失效，或者做研究需要系统性地保存参考资料，ArchiveBox 是个扎实的选择。记者用它保存引用页面作为证据，研究者用它建立可长期访问的文献库，普通用户用它备份自己的书签和收藏。数据存在本地，隐私也有保障。

这是个没有花哨功能、但把核心事情做稳了的工具。2.7万 Star 的成绩，说明它的方向是对的。

posted @ 2026-06-04 15:20 bytebender31 阅读(18) 评论(0) 收藏举报

刷新页面返回顶部

guoqianpython

ArchiveBox：自建网页归档工具，把互联网存进本地硬盘

ArchiveBox：自建网页归档工具，把互联网存进本地硬盘

核心功能：多格式冗余保存

为什么值得用？

部署方式

实际体验

适合谁用

公告