spider - 随笔分类 - huanzi-qch

博客园随笔备份Java脚本

摘要：前言不知不觉已经写了104篇随笔了，为了避免发生意外造成博客丢失，我们写一个备份脚本对博客进行备份 1、备份格式我们选择md文档格式 2、图片要下载到本地，方便我们统一上传图床 3、博客数据入库，可以用mysql 我们选用Java爬虫神器：HtmlUnit（详情请戳：htmlUnit加持，网络小蜘阅读全文

posted @ 2021-10-12 12:20 huanzi-qch 阅读(432) 评论(0) 推荐(0)

免费IP代理池定时维护，封装通用爬虫工具类每次随机更新IP代理池跟UserAgent池，并制作简易流量爬虫

摘要：前言我们之前的爬虫都是模拟成浏览器后直接爬取，并没有动态设置IP代理以及UserAgent标识，这样很容易被服务器封IP，因此需要设置IP代理，但又不想花钱买，网上有免费IP代理，但大多都数都是不可用，而且不稳定，所以需要自行抓取、校验本文记录免费IP代理池定时维护，封装通用爬虫工具类每次随机更阅读全文

posted @ 2019-08-13 17:44 huanzi-qch 阅读(2375) 评论(0) 推荐(0)

htmlUnit加持，网络小蜘蛛的超级进化

摘要：前言前段时间写了个小说线上采集阅读（猛戳这里：https://www.cnblogs.com/huanzi-qch/p/9817831.html），当我们去采集起点网的小说目录时发现目录数据没有在html里面，数据是页面加载时，用ajax请求获取，且对应的div是隐藏的，需要点击“目录”，才看到目阅读全文

posted @ 2018-10-29 11:06 huanzi-qch 阅读(1412) 评论(0) 推荐(1)

httpclient+jsoup实现小说线上采集阅读

摘要：前言用过老版本UC看小说的同学都知道，当年版权问题比较松懈，我们可以再UC搜索不同来源的小说，并且阅读，那么它是怎么做的呢？下面让我们自己实现一个小说线上采集阅读。（说明：仅用于技术学习、研究）看小说时，最烦的就是有各种广告，这些广告有些是站长放上去的盈利手段，有些是被人恶意注入。在我的上一篇博阅读全文

posted @ 2018-10-19 17:46 huanzi-qch 阅读(3353) 评论(2) 推荐(2)

HttpClients+Jsoup抓取笔趣阁小说，并保存到本地TXT文件

摘要：前言首先先介绍一下Jsoup：（摘自官网） jsoup is a Java library for working with real-world HTML. It provides a very convenient API for extracting and manipulating dat 阅读全文

posted @ 2018-10-10 17:13 huanzi-qch 阅读(4130) 评论(3) 推荐(2)

HttpClient+Jsoup模拟登陆贺州学院教务系统，获取学生个人信息

摘要：前言注：可能学校的教务系统已经做了升级，当前的程序不知道还能不能成功获取信息，加上已经毕业，我的账户已经被注销，试不了，在这里做下思路跟过程的记录。在我的毕业设计中”基于SSM框架贺州学院校园二手交易平台设计与实现”我有这样一个设想：使用学校教务系统账号进行贺州学院学生身份认证（通过HttpCl 阅读全文

posted @ 2018-08-04 11:49 huanzi-qch 阅读(1595) 评论(0) 推荐(0)

huanzi-qch

物联网工程专业本科生，一名普通程序员，工作认真负责，对技术充满热情，善于探索，热爱开源。
PS：坐标南宁，正在留意好的职业发展机会🎈

随笔分类 - spider

公告

huanzi-qch

物联网工程专业本科生，一名普通程序员，工作认真负责，对技术充满热情，善于探索，热爱开源。 PS：坐标南宁，正在留意好的职业发展机会🎈

随笔分类 - spider

公告

物联网工程专业本科生，一名普通程序员，工作认真负责，对技术充满热情，善于探索，热爱开源。
PS：坐标南宁，正在留意好的职业发展机会🎈