爬虫 - 随笔分类 - Ouka傅

HtmlUnit入门二

摘要：由于在在WebClient中，默认支持对CSS，JavaScript的解析，因此会总是会出现很多错误信息，并且执行速度也很慢。因此，我们可以选择关闭掉WebClient对CSS，JavaScript的解析。使用WebClient#getOption()方法，返回一个WebClientOption 阅读全文

posted @ 2017-07-29 20:24 Ouka傅阅读(1226) 评论(1) 推荐(0)

HtmlUnit入门一

摘要：htmlunit 是一款开源的java 页面分析工具，读取页面后，可以有效的使用htmlunit分析页面上的内容。项目可以模拟浏览器运行，被誉为java浏览器的开源实现。是一个没有界面的浏览器。采用的是Rhinojs引擎。模拟js运行。使用htmlunit抓取网页大概可以分为以下几个步骤： 1 阅读全文

posted @ 2017-07-29 15:01 Ouka傅阅读(7946) 评论(0) 推荐(0)

jsoup入门

摘要：jsoup是一款Java的HTML解析器，主要用来对HTML解析。官网中文文档在爬虫的时候，当我们用HttpClient之类的框架，获取到网页源码之后，需要从网页源码中取出我们想要的内容，就可以使用jsoup这类HTML解析器了。可以非常轻松的实现。虽然jsoup也支持从某个地址直接去爬取网阅读全文

posted @ 2017-07-27 21:22 Ouka傅阅读(7688) 评论(0) 推荐(0)

HttpClient入门三

摘要：我们在爬取网页的时候，由于需要不断的访问目标服务器，因此给目标服务器带来了很多的压力。因此，很多访问量大的服务器都会有保护措施，如果检测到我们的行为，可以会禁止我们的ip访问。这个时候，我们就需要使用到代理ip来进行访问了。在HttpCLient中，提供了一个org.apache.http.c 阅读全文

posted @ 2017-07-26 13:19 Ouka傅阅读(284) 评论(0) 推荐(0)

HttpClient入门二

摘要：通过上一节我们已经可以实现对一个网站源码的抓取。但是，有一些网站，在爬取的时候会出现如下的错误： 503错误表示服务器拒绝的意思。这种网站通过检测到我们不是浏览器的访问，来拒绝我们的请求。这个时候为了能够实现抓取，我们就需要模拟浏览器来实现抓取行为。就需要在头信息中加入一些东西来模拟浏览器我阅读全文

posted @ 2017-07-24 09:53 Ouka傅阅读(486) 评论(1) 推荐(0)

HttpClient入门一

摘要：HttpClient是一个实现了Http协议的功能强大的编程工具包。要使用HttpClient，通常需要以下几部： 1、常见一个HttpClient实例 2、创建一个get或者post方法 3、告诉HttpClient去执行获取的方法 4、读取服务器的响应 5、释放连接 6、处理响应的内容下面这阅读全文

posted @ 2017-07-23 21:18 Ouka傅阅读(381) 评论(0) 推荐(0)

Java爬虫原理分析

摘要：当我们需要从网络上获取资源的时候，我们一般的做法就是通过浏览器打开某个网站，然后将我们需要的东西下载或者保存下来。但是，当我们需要大量下载的时候，这个时候通过人工一个个的去点击下载，就显得太没有效率了。这个时候我们就可以通过程序来实现批量的获取资源的方式，我们称之为爬虫。也就是从网络上的站点爬取资阅读全文

posted @ 2017-07-23 17:19 Ouka傅阅读(694) 评论(0) 推荐(0)

Ouka傅

随笔分类 - 爬虫

公告