随笔分类 -  spider

摘要:前言 不知不觉已经写了104篇随笔了,为了避免发生意外造成博客丢失,我们写一个备份脚本对博客进行备份 1、备份格式我们选择md文档格式 2、图片要下载到本地,方便我们统一上传图床 3、博客数据入库,可以用mysql 我们选用Java爬虫神器:HtmlUnit(详情请戳:htmlUnit加持,网络小蜘 阅读全文
posted @ 2021-10-12 12:20 huanzi-qch 阅读(392) 评论(0) 推荐(0) 编辑
摘要:前言 我们之前的爬虫都是模拟成浏览器后直接爬取,并没有动态设置IP代理以及UserAgent标识,这样很容易被服务器封IP,因此需要设置IP代理,但又不想花钱买,网上有免费IP代理,但大多都数都是不可用,而且不稳定,所以需要自行抓取、校验 本文记录免费IP代理池定时维护,封装通用爬虫工具类每次随机更 阅读全文
posted @ 2019-08-13 17:44 huanzi-qch 阅读(2163) 评论(0) 推荐(0) 编辑
摘要:前言 前段时间写了个小说线上采集阅读(猛戳这里:https://www.cnblogs.com/huanzi-qch/p/9817831.html),当我们去采集起点网的小说目录时发现目录数据没有在html里面,数据是页面加载时,用ajax请求获取,且对应的div是隐藏的,需要点击“目录”,才看到目 阅读全文
posted @ 2018-10-29 11:06 huanzi-qch 阅读(1282) 评论(0) 推荐(1) 编辑
摘要:前言 用过老版本UC看小说的同学都知道,当年版权问题比较松懈,我们可以再UC搜索不同来源的小说,并且阅读,那么它是怎么做的呢?下面让我们自己实现一个小说线上采集阅读。(说明:仅用于技术学习、研究) 看小说时,最烦的就是有各种广告,这些广告有些是站长放上去的盈利手段,有些是被人恶意注入。在我的上一篇博 阅读全文
posted @ 2018-10-19 17:46 huanzi-qch 阅读(2847) 评论(2) 推荐(2) 编辑
摘要:前言 首先先介绍一下Jsoup:(摘自官网) jsoup is a Java library for working with real-world HTML. It provides a very convenient API for extracting and manipulating dat 阅读全文
posted @ 2018-10-10 17:13 huanzi-qch 阅读(3853) 评论(3) 推荐(2) 编辑
摘要:前言 注:可能学校的教务系统已经做了升级,当前的程序不知道还能不能成功获取信息,加上已经毕业,我的账户已经被注销,试不了,在这里做下思路跟过程的记录。 在我的毕业设计中”基于SSM框架贺州学院校园二手交易平台设计与实现”我有这样一个设想:使用学校教务系统账号进行贺州学院学生身份认证(通过HttpCl 阅读全文
posted @ 2018-08-04 11:49 huanzi-qch 阅读(1530) 评论(0) 推荐(0) 编辑