随笔分类 - Java
摘要:因为要转到Java阵营,最近开始系统的看Java方面的书籍,正好自己需要大量的图片,所以就有了写一个爬虫,把自己设定的几个网站上所有的图片抓取下来,顺便练习Java。对爬虫程序一直都比较好奇,但没有过任何经验,在参考前辈的理念基础上尽量自己发挥。爬虫完成前都是边写边改,可能后期的设计和现在的不太一样...
阅读全文
摘要:这个时候主要创建了4个类:Config.java、DownPage.java、GetURL.java、DownImage.java。在Text.java类中测试的时候由于是单独测试,没有任何问题,所有功能都可以正常使用,但是当几个功能同时运行的时候就出现了问题。由于有几个容器,DownPage.ja...
阅读全文
摘要:提取出图片链接存入IMAGE_LIST中之后,下面就需要从中提取链接并下载。但是在下载的时候发现很多小图片都是logo或者表情,浪费磁盘空间,而且效率底下。所以设置了一个最小大小限制,小于这个大小的图片将会跳过。DownImage.java主要方法如下:public boolean saveImag...
阅读全文
摘要:在提取链接1里面,我们提取了fromURL,即当前URL的路径,用来对相对路径进行处理。但是很快就发现了还有另外一种情况,即:href="/a/b/1.html"这种路径。在开头的地方有个斜杠,表面这个路径是相对于根目录的,所以必须要提取出当前URL的根目录才行,建立一个变量:rootURL。/**...
阅读全文
摘要:完成页面下载时候,就要分析代码,提取出里面的链接。提取的基本思路当然是通过正则来提取。但是可能遇到两种情况:1:绝对链接:例如http://catcoder.com2:相对链接:例,image/1.jpg 在相对链接的时候就要知道链接的上级目录。但是在之前下载页面的时候,没有保存URL,所以需要修改...
阅读全文

浙公网安备 33010602011771号