ArchiveBox:自建网页归档工具,把互联网存进本地硬盘

ArchiveBox:自建网页归档工具,把互联网存进本地硬盘

互联网上的内容每天都在消失。一篇你昨天收藏的文章,今天点进去可能就是404。一个你常用的工具站,过几个月域名就过期了。ArchiveBox 就是专门解决这个问题的,目前在 GitHub 上收获了 2.7 万 Star。

正文顶部截图

我自己有个习惯,看到好的技术文章会先点个收藏,但收藏夹里的链接经常失效。后来开始用笔记工具剪藏,可那些工具要么收费,要么格式受限,数据还不是自己的。ArchiveBox 的思路不一样:它让你在自己的服务器或电脑上,把网页完整保存下来,数据完全归你所有。

核心功能:多格式冗余保存

ArchiveBox 不是简单地下载一个 HTML 文件就完事。它会对每个 URL 生成多种格式的备份:原始 HTML、单文件 HTML、截图 PNG、PDF、纯文本 TXT、WARC 归档格式,还有 JSON 元数据。这些格式都是标准开放的,即使 ArchiveBox 以后不维护了,你存下来的文件照样能打开。

它还能识别页面里的内容类型并提取:

  • 普通网页:保存原始 HTML、CSS、JS、文章正文、标题、favicon
  • 社交媒体和新闻:提取帖子内容、评论、作者、图片
  • YouTube、SoundCloud 等:下载 MP3/MP4、字幕、缩略图、元数据
  • GitHub、GitLab 链接:克隆源码、README、图片

README区域截图

为什么值得用?

第一,数据自主权。 很多在线剪藏服务说关就关,或者突然改收费政策。ArchiveBox 是自托管的,代码开源,数据存在你自己的硬盘上,谁也拿不走。

第二,输入来源丰富。 你可以一条一条手动加 URL,也可以批量导入书签、浏览器历史、RSS 订阅、Pocket/Pinboard 收藏。配合浏览器扩展,看到想保存的页面点一下就行。还能设置定时任务,自动归档指定来源的新内容。

第三,输出格式耐久。 它用的都是 HTML、PDF、PNG、TXT、JSON 这类几十年后仍然可读的标准格式。没有私有格式锁定,不依赖特定软件。默认还会同时提交一份到 archive.org,双重保险。

部署方式

ArchiveBox 支持 Docker Compose、Docker 单容器、pip 安装、apt 安装等多种方式。最推荐的是 Docker Compose,一条命令就能跑起来,自带 Web 管理界面。也提供纯 CLI 模式,适合喜欢命令行的用户。还有 REST API 和 Python API,方便对接其他工具。

安装门槛不高。有 Docker 的话,复制文档里的 compose 文件,运行初始化命令,再启动服务,浏览器打开本地地址就能用。不想用 Docker 的,pip 直接安装也行,Linux 和 macOS 都支持,Windows 建议走 Docker。

实际体验

从文档和社区的反馈来看,ArchiveBox 对常规网页的归档效果很完整,页面结构、图片、样式都能保留。对于需要登录才能看的内容,它也支持配置 Cookie 和 Chrome 用户数据目录来抓取。复杂动态页面(比如大量 JS 渲染的单页应用)效果会打折扣,但日常的技术博客、新闻文章、文档页面都没问题。

项目本身维护活跃,文档写得详细,社区里也有不少人分享使用经验。作为一个 501(c)(3) 非营利组织运营的项目,它没有商业变现压力,发展方向比较纯粹。

适合谁用

如果你经常收藏网页但担心链接失效,或者做研究需要系统性地保存参考资料,ArchiveBox 是个扎实的选择。记者用它保存引用页面作为证据,研究者用它建立可长期访问的文献库,普通用户用它备份自己的书签和收藏。数据存在本地,隐私也有保障。

这是个没有花哨功能、但把核心事情做稳了的工具。2.7万 Star 的成绩,说明它的方向是对的。

posted @ 2026-06-04 15:20  bytebender31  阅读(18)  评论(0)    收藏  举报