抓取图片（网络爬虫）

最近一直在研究网络爬虫方面的知识，上一章中已经实现可以通过正则表达式抓取文本内容，这篇文章则实现抓取图片到本地资源。

核心思想还是正则表达式的书写，加上一小部分业务逻辑的处理。

如获取页面上图片的链接，处理比较麻烦，如下所示:

	// 获取图片的链接
	public List getPhoto(String content, String type) {
		List list = new ArrayList();
		Pattern pattern = Pattern.compile("src=.http://.*." + type + "");
		Matcher matcher = pattern.matcher(content);
		while (matcher.find()) {
			int start = matcher.start();
			int end = matcher.end();
			String href = content.substring(start, end);
			if (href.contains("src=")) {
				href = href.substring(5);
			}

			System.out.println("url:" + href);
			list.add(href);
		}
		System.out.println("size++:" + list.size());
		return list;
	}

以下链接是资源的下载，代码里面有很详细的注释。

http://download.csdn.net/detail/a331251021/4581404

posted on 2012-09-19 23:21 天吧8 阅读(622) 评论(0) 收藏举报