2021 年 4月 13 日随笔档案 - 逐梦寻欢

2021年4月13日

摘要：起因：因为最近在追的一部漫画因为版权原因被下架了，遂FQ去外面找到免费的版本，奈何网速慢而且一页只有一张图看的实在是影响阅读体验，网站也没有提供下载的功能，遂针对此网站写了一个爬虫工具，根据书号自动获取所有章节链接，然后遍历章节去获取每一张图片地址，最后将每章内容打包成pdf文件保存下来，方便阅读阅读全文

posted @ 2021-04-13 16:18 逐梦寻欢阅读(1044) 评论(0) 推荐(0)

【java爬虫--2】将批量图片地址转成pdf文件

摘要：在第一步【Htmlunit+Jsoup解析非静态页面爬取图片】获得图片地址并按行保存成文件后，接着又通过下面的方法将图片批量转成pdf文件。引入第三方工具类： <dependency> <groupId>com.itextpdf</groupId> <artifactId>itextpdf</ar 阅读全文

posted @ 2021-04-13 16:03 逐梦寻欢阅读(374) 评论(0) 推荐(0)

文本文件按行去重，有序输出

摘要：针对有些文本数据重复的情况，需要将数据去重，考虑到LinkedHashMap是有序的，可以保证文本顺序不变，所以采用此集合。去重前：去重后：代码如下： import java.io.*; import java.util.Iterator; import java.util.LinkedHas 阅读全文

posted @ 2021-04-13 16:02 逐梦寻欢阅读(347) 评论(0) 推荐(0)

逐梦寻欢

公告