最近一直在研究网络爬虫方面的知识,上一章中已经实现可以通过正则表达式抓取文本内容,这篇文章则实现抓取图片到本地资源。
核心思想还是正则表达式的书写,加上一小部分业务逻辑的处理。
如获取页面上图片的链接,处理比较麻烦,如下所示:
// 获取图片的链接
public List getPhoto(String content, String type) {
List list = new ArrayList();
Pattern pattern = Pattern.compile("src=.http://.*." + type + "");
Matcher matcher = pattern.matcher(content);
while (matcher.find()) {
int start = matcher.start();
int end = matcher.end();
String href = content.substring(start, end);
if (href.contains("src=")) {
href = href.substring(5);
}
System.out.println("url:" + href);
list.add(href);
}
System.out.println("size++:" + list.size());
return list;
}
以下链接是资源的下载,代码里面有很详细的注释。
http://download.csdn.net/detail/a331251021/4581404
转载请加上http://www.cnblogs.com/zhengchubin/
浙公网安备 33010602011771号