微信公众号文章爬取
还记得5年前写了一下公众号文章内容爬取的原理,至此仍然适用,一样可以爬取。原文链接
本次带来的是现成的爬取工具
1.wechat-article-exporter
wechat-article-exporter是一款微信公众号文章导出工具,能够100%还原原文样式,工具受 WeChat_Article 项目的启发所写。
目前支持搜索公众号和公众号内文章,导出文章为包含图片和样式文件的HTML格式( (打包了图片和样式文件,能够保证100%还原文章样式)),支持批量导出并确保样式完全还原。
同时,它还能缓存文章列表数据和样式文件,减少接口请求次数、加快下载速度,并过滤已删除的文章。
步骤:
注册一个微信公众号 (已有账号的话跳过)
服务号和订阅号皆可
二维码扫码登录
搜索目标公众号,开始下载文章
2.WechatDownload
WechatDownload是一款可以批量下载微信公众号内容的小工具,不需要安装证书,支持下载微信公众号的历史消息,支持下载word、pdf文件,可以保存文章为html或md文件。
步骤:
打开想要下载的公众号里面的随便一篇文章,复制链接到软件中,点击获取公众号id。
在微信打开刚刚复制的链接,等待一会,软件会自动获取秘钥
然后就可以下载公众号的文章啦
注意事项,需要在微信设置取消:使用系统默认浏览器打开网页
3.WeChat Article
WeChat Article一款利用Python 爬虫写的免费开源爬取微信公众号文章工具,能够批量爬取微信公众号文章,可以把内容下载到本地保存为HTML,而且支持断点续传。
工具原理是通过selenium登录获取token和cookie,再自动爬取和下载,不过工具非开箱即用的,不过作者由演示视频,感兴趣的同学可以学习研究一下。
以上3个工具都可以实现公众号下载。
需要源码的同学联系我哦,备注博客园。