浅谈网络爬虫爬js动态加载网页

由于别的项目组在做舆情的预言项目，我手头正好没有什么项目，突然心血来潮想研究一下爬虫、分析的简单原型。网上查查这方面的资料还真是多，眼睛都看花了。搜了搜对于我这种新手来说，想做一个简单的爬虫程序，所以HttpClient + jsoup是一个不错的选择。前者用来管理请求，后者用来解析页面，主要是后者的select语法很像jquery，对于用js的我来说方便太多了。

　　昨天和他们聊天的时候，他们选用了几个著名的开源框架使用，聊着聊着就发现原来他们目前还没有办法抓取动态的网页，尤其是几个重要的数字，例如评论数，回帖数等等。大致了解了一下，例如TRS的爬虫，对于js的调用，需要写js脚本，但是分析量巨大，他们的技术人员告诉我们，类似这样的模板他们配的话，一天也就只能配2到3个，更不要说我们这些半路出家的。正好觉得颇有挑战，所以昨天答应了他们看看能不能找到一个相对来说简单的解决办法，当然，先不考虑效率。

　　举一个简单的例子，如下图

　　“我有话说”后的1307就是后加载的，但是往往这些数字对于舆情分析来说还是比较重要的。

　　大致了解了需求，就分析一下如何解决。通常，我们的一次请求，得到的回应是包含js代码和html元素的，所以对于jsoup这样的html解析器在这里就难以发挥优势，因为它所能拿到的html，1307还没有生成。这个时候就需要一个可运行js的平台，将运行过js代码的后的页面，交由html解析，这样才能正确获得结果。

　　由于我比较偷懒，写脚本的方式一开始就被我抛弃了，因为分析一个页面太痛苦了，代码乱成一锅粥，好多还采用压缩的办法，满眼都是a(),b()的方法，看的太累了。所以我最优先想到的是，为什么我不能让这个地址在某个浏览器中运行，然后将运行的结果交给html解析器去解析，那么整个问题不就迎刃而解了吗。这样我暂时的解决方案就是在爬虫服务端，开一个后台的浏览器，或者是有浏览器内核的程序，将url地址交给它去请求，然后从浏览器中将页面的元素取出，交给html解析器去解析，从而获取自己想要的信息。

没错，最后我还是使用了Selenium，去实现上一篇我所说的问题，别的没有试，只试了一下firefox的引擎，总体效果对我来说还是可以接受的。

　　继续昨天的话题，既然要实现上篇所说的问题，那么就需要一个可以执行js代码的框架。我首先选择的是htmlunit，先简单介绍一下htmlunit。下面一段摘自网络。

htmlunit 是一款开源的 java 页面分析工具，启动 htmlunit 之后，底层会启动一个无界面浏览器，用户可以指定浏览器类型：firefox、ie 等，如果不指定，默认采用 INTERNET_EXPLORER_7：
WebClient webClient = new WebClient(BrowserVersion.FIREFOX_3_6);

通过简单的调用：
HtmlPage page = webClient.getPage(url)；
即可得到页面的 HtmlPage 表示，然后通过：
InputStream is = targetPage.getWebResponse().getContentAsStream()
即可得到页面的输入流，从而得到页面的源码，这对做网络爬虫的项目来说，很有用。
当然，也可以从 page 中得更多的页面元素。

很重要的一点是，HtmlUnit 提供对执行 javascript 的支持：
page.executeJavaScript(javascript)
执行 js 之后，返回一个 ScriptResult 对象，通过该对象可以拿到执行 js 之后的页面等信息。默认情况下，内部浏览器在执行 js 之后，将做页面跳转，跳转到执行 js 之后生成的新页面，如果执行 js 失败，将不执行页面跳转。

最后可以取得page.executeJavaScript(javascript).getNewPage()，获取执行后的页面。换句话说，javascript需要在这里人为的执行，显然与我的初衷不符，另外可能是我水平太差，在抓取sina新闻的页面时总是出错，暂时还没发现错误在何处，但按照网络上查询的结果来分析，极有可能错误的原因是在于htmlunit执行某些带参数的请求时，由于参数的顺序或者编码问题会导致请求失败而报错。关键是，运行后并没有得到我需要的结果。

　　那么就另寻解决办法，这个时候就找到了Selenium WebDriver，他是我需要的一个解决方案。

　　参考了资料和例子，就可以开始使用他了。实例代码如下。

 1        File pathToBinary = new File("D:\\Program Files (x86)\\Mozilla Firefox\\firefox.exe");
 2         FirefoxBinary ffBinary = new FirefoxBinary(pathToBinary);
 3         FirefoxProfile firefoxProfile = new FirefoxProfile();
 4         FirefoxDriver driver = new FirefoxDriver(ffBinary,firefoxProfile);
 5 
 6 
 7         driver.get("http://cq.qq.com/baoliao/detail.htm?294064");
 8 
 9         ArrayList list = new ArrayList();
10         list.add("http://www.sina.com.cn");
11         list.add("http://www.sohu.com");
12         list.add("http://www.163.com");
13         list.add("http://www.qq.com");
14 
15         long start,end;
16 
17         for(int i=0;i<list.size();i++){
18             start = System.currentTimeMillis();
19             driver.get(list.get(i).toString());
20             end = System.currentTimeMillis();
21             System.out.println(list.get(i).toString() + ":" + (end - start));
22         }
23 
24         driver.close();

　　使用了firefox的引擎，得到的结果如下，而且确实满足了我的要求。

　　http://www.sina.com.cn:6638
　　http://www.sohu.com:5796
　　http://www.163.com:7567
　　http://www.qq.com:9384

　　可以看见如上的结果时间还是蛮长的，那如何加快速度呢。其实仔细考虑一下，为什么他要这么久，就是因为他在下载网页元素，我们请求一个网站的时候是发起一个req,得到一个res,而res中是只有元素没有内容的，换句话说，他不用执行css,js,不用下载图片，flash，加载广告等等。而如果我们需要加快效率，那就需要移除一切与我分析无关的东西，那么仿照浏览器一样，我们需要屏蔽掉css,图片，flash等等，从而加速网页的速度，更关心其中的内容。

　　简单方法如下：

1 //去掉css        
　　firefoxProfile.setPreference("permissions.default.stylesheet", 2);
2 //去掉图片    
3  firefoxProfile.setPreference("permissions.default.image", 2);
4 //去掉flash        
　　firefoxProfile.setPreference("dom.ipc.plugins.enabled.libflashplayer.so",false);

　　那么在去除掉所有firefox缓存后，再次运行一下，会有什么结果呢。结果如下

　　http://www.sina.com.cn:5085
　　http://www.sohu.com:3520
　　http://www.163.com:3329
　　http://www.qq.com:2048

　　发现确实快了很多。上面只是一个大致的原型，如果真正的要用，还需要封装。

上一篇讨论了web driver对动态网页的抓取与分析，可以很清楚的看出这是一种集中式处理方式，简单说，就是利用服务器，打开一个真正的brower，然后将需要解析的地址交给浏览器，浏览器去解析，然后将结果返回。这样正如网友评论一样，效率上不好，其实我想说的是，如果质提不上去，可以采用量的方式，比如开多线程处理，多开几台机器处理，虽然单个不快，量多后，处理速度就上去了。当然这也不是什么特别好的方法。

　　先谈谈他的不好之处：

　　首先，依赖浏览器的驱动，无论使用ie,firefox,chrome，都需要启动其driver，才能进行操作。

　　其次，对响应结果控制力度不够自由，比如有些网页我需要一个东西，有些网页我需要另一个东西，那么我希望是，可以对响应结果进行解析和过滤。

　　最后，他是一个集中式处理的方式，现在啥都讲求分布式，当然不能为了分布而分布，不过在利用brower的资源时，分布是一个好的解决方法。

　　那么，我还能做什么了，今天和同事聊的时候突然想到一个方案，也许会有一些帮助。当然，目前只是一个想法，不过后续我会去试验可行性，我相信估计也有人这么试过。让我们重新回归原点，从上一篇的解决方案中可以看出，其实我们采用的基本是一种类似黑盒的测试方式，也就是说，我们根本没有分析这些动态网页的构成，只是单纯的将网页让浏览器去解析，然后我们取得结果,（当然这里先不考虑一些复杂的ajax请求）。这里有两个要素，一就是浏览器，使用的web driver；二就是浏览器去解析，并做了请求和响应。

　　为什么我不能采用分布式处理呢？利用客户端的资源来解析动态网页，这样不就减轻了压力，而且可以大大增加处理地址的能力。我的想法是这样的：

　　1、开发一个简单的网页，用来访问。例如一个jsp

　　2、将需要进行解析的地址通过参数的形式传给这个页面。例如采用xxx.jsp?url='www.sina.com.cn'

　　3、后台截获这个req，然后根据新的url也就是"http://www.sina.com.cn"，发起一个新的httprequest，将这个response，write给前面这个res.

　　这样其实就是将sina的respose，交给了我这个jsp。

　　4、这样，我就可以做一些手脚，例如获取response的时候，采用html解析器，并利用规则过滤掉一些元素或者添加一些我们需要的脚本代码，并将这个修改后的response，交个浏览器去执行。最后获取执行后的结果，再交给服务器处理或者保存。

　　这样就避免掉一开始的一些问题。首先，与浏览器driver无关，也就是说如果用ie访问，就利用ie引擎；用firefox访问，就利用firefox引擎。就可以脱离web driver。其次，可以对结果进行自由控制，采用html解析器，就可以按照自己的规则来过滤响应。最后，利用这种方式就是一种分布式的处理，也就是说凡是访问我页面的浏览器，都可以用来进行页面解析，而且可以不占用我服务器的带宽。

　　可见的问题在于：

　　1、如何控制客户端去访问我想要的网址。

　　2、如何将访问后的内容传回后台处理。

　　3、由于篡改了响应，带来的Cross Domain的问题会不会影响到我的解析结果。

　　4、如何知道页面已经加载完毕。

　　5、采用何种解析器解析。

posted on 2021-07-23 02:05 宏宇阅读(1340) 评论(0) 收藏举报