摘要: 起因: 因为最近在追的一部漫画因为版权原因被下架了,遂FQ去外面找到免费的版本,奈何网速慢而且一页只有一张图看的实在是影响阅读体验,网站也没有提供下载的功能,遂针对此网站写了一个爬虫工具,根据书号自动获取所有章节链接,然后遍历章节去获取每一张图片地址,最后将每章内容打包成pdf文件保存下来,方便阅读 阅读全文
posted @ 2021-04-13 16:18 逐梦寻欢 阅读(769) 评论(0) 推荐(0) 编辑
摘要: 在第一步【Htmlunit+Jsoup解析非静态页面爬取图片】获得图片地址并按行保存成文件后,接着又通过下面的方法将图片批量转成pdf文件。 引入第三方工具类: <dependency> <groupId>com.itextpdf</groupId> <artifactId>itextpdf</ar 阅读全文
posted @ 2021-04-13 16:03 逐梦寻欢 阅读(319) 评论(0) 推荐(0) 编辑
摘要: 针对有些文本数据重复的情况,需要将数据去重,考虑到LinkedHashMap是有序的,可以保证文本顺序不变,所以采用此集合。 去重前: 去重后: 代码如下: import java.io.*; import java.util.Iterator; import java.util.LinkedHas 阅读全文
posted @ 2021-04-13 16:02 逐梦寻欢 阅读(307) 评论(0) 推荐(0) 编辑