随笔分类 -  爬虫

摘要:由于在在WebClient中,默认支持对CSS,JavaScript的解析,因此会总是会出现很多错误信息,并且执行速度也很慢。 因此,我们可以选择关闭掉WebClient对CSS,JavaScript的解析。 使用WebClient#getOption()方法,返回一个WebClientOption 阅读全文
posted @ 2017-07-29 20:24 Ouka傅 阅读(1226) 评论(1) 推荐(0)
摘要:htmlunit 是一款开源的java 页面分析工具,读取页面后,可以有效的使用htmlunit分析页面上的内容。 项目可以模拟浏览器运行,被誉为java浏览器的开源实现。是一个没有界面的浏览器。 采用的是Rhinojs引擎。模拟js运行。 使用htmlunit抓取网页大概可以分为以下几个步骤: 1 阅读全文
posted @ 2017-07-29 15:01 Ouka傅 阅读(7946) 评论(0) 推荐(0)
摘要:jsoup是一款Java的HTML解析器,主要用来对HTML解析。官网 中文文档 在爬虫的时候,当我们用HttpClient之类的框架,获取到网页源码之后,需要从网页源码中取出我们想要的内容, 就可以使用jsoup这类HTML解析器了。可以非常轻松的实现。 虽然jsoup也支持从某个地址直接去爬取网 阅读全文
posted @ 2017-07-27 21:22 Ouka傅 阅读(7688) 评论(0) 推荐(0)
摘要:我们在爬取网页的时候,由于需要不断的访问目标服务器,因此给目标服务器带来了很多的压力。 因此,很多访问量大的服务器都会有保护措施,如果检测到我们的行为,可以会禁止我们的ip访问。 这个时候,我们就需要使用到代理ip来进行访问了。 在HttpCLient中,提供了一个org.apache.http.c 阅读全文
posted @ 2017-07-26 13:19 Ouka傅 阅读(284) 评论(0) 推荐(0)
摘要:通过上一节我们已经可以实现对一个网站源码的抓取。 但是,有一些网站,在爬取的时候会出现如下的错误: 503错误表示服务器拒绝的意思。 这种网站通过检测到我们不是浏览器的访问,来拒绝我们的请求。这个时候为了能够实现抓取,我们就需要模拟浏览器来实现抓取行为。 就需要在头信息中加入一些东西来模拟浏览器 我 阅读全文
posted @ 2017-07-24 09:53 Ouka傅 阅读(485) 评论(1) 推荐(0)
摘要:HttpClient是一个实现了Http协议的功能强大的编程工具包。 要使用HttpClient,通常需要以下几部: 1、常见一个HttpClient实例 2、创建一个get或者post方法 3、告诉HttpClient去执行获取的方法 4、读取服务器的响应 5、释放连接 6、处理响应的内容 下面这 阅读全文
posted @ 2017-07-23 21:18 Ouka傅 阅读(381) 评论(0) 推荐(0)
摘要:当我们需要从网络上获取资源的时候,我们一般的做法就是通过浏览器打开某个网站,然后将我们需要的东西下载或者保存下来。 但是,当我们需要大量下载的时候,这个时候通过人工一个个的去点击下载,就显得太没有效率了。这个时候我们就可以通过程序来实现批量的获取资源的方式,我们称之为爬虫。也就是从网络上的站点爬取资 阅读全文
posted @ 2017-07-23 17:19 Ouka傅 阅读(694) 评论(0) 推荐(0)