随笔分类 - spider
摘要:前言 不知不觉已经写了104篇随笔了,为了避免发生意外造成博客丢失,我们写一个备份脚本对博客进行备份 1、备份格式我们选择md文档格式 2、图片要下载到本地,方便我们统一上传图床 3、博客数据入库,可以用mysql 我们选用Java爬虫神器:HtmlUnit(详情请戳:htmlUnit加持,网络小蜘
阅读全文
摘要:前言 我们之前的爬虫都是模拟成浏览器后直接爬取,并没有动态设置IP代理以及UserAgent标识,这样很容易被服务器封IP,因此需要设置IP代理,但又不想花钱买,网上有免费IP代理,但大多都数都是不可用,而且不稳定,所以需要自行抓取、校验 本文记录免费IP代理池定时维护,封装通用爬虫工具类每次随机更
阅读全文
摘要:前言 前段时间写了个小说线上采集阅读(猛戳这里:https://www.cnblogs.com/huanzi-qch/p/9817831.html),当我们去采集起点网的小说目录时发现目录数据没有在html里面,数据是页面加载时,用ajax请求获取,且对应的div是隐藏的,需要点击“目录”,才看到目
阅读全文
摘要:前言 用过老版本UC看小说的同学都知道,当年版权问题比较松懈,我们可以再UC搜索不同来源的小说,并且阅读,那么它是怎么做的呢?下面让我们自己实现一个小说线上采集阅读。(说明:仅用于技术学习、研究) 看小说时,最烦的就是有各种广告,这些广告有些是站长放上去的盈利手段,有些是被人恶意注入。在我的上一篇博
阅读全文
摘要:前言 首先先介绍一下Jsoup:(摘自官网) jsoup is a Java library for working with real-world HTML. It provides a very convenient API for extracting and manipulating dat
阅读全文
摘要:前言 注:可能学校的教务系统已经做了升级,当前的程序不知道还能不能成功获取信息,加上已经毕业,我的账户已经被注销,试不了,在这里做下思路跟过程的记录。 在我的毕业设计中”基于SSM框架贺州学院校园二手交易平台设计与实现”我有这样一个设想:使用学校教务系统账号进行贺州学院学生身份认证(通过HttpCl
阅读全文