摘要: 区别于上篇动态网页抓取,这里介绍另一种方法,即使用浏览器渲染引擎。直接用浏览器在显示网页时解析 HTML、应用 CSS 样式并执行 JavaScript 的语句。 这个方法在爬虫过程中会打开一个浏览器加载该网页,自动操作浏览器浏览各个网页,顺便把数据抓下来。用一句简单而通俗的话说,就是使用浏览器渲染 阅读全文
posted @ 2018-04-14 21:57 小杜同学的嘚啵嘚 阅读(2259) 评论(0) 推荐(0)
摘要: 由于主流网站都使用JavaScript展示网页内容,和前面简单抓取静态网页不同的是,在使用JavaScript时,很多内容并不会出现在HTML源代码中,而是在HTML源码位置放上一段JavaScript代码,最后呈现出来的数据是通过JavaScript提取服务器返回的数据加载到源代码中进行呈现。因此 阅读全文
posted @ 2018-04-14 15:36 小杜同学的嘚啵嘚 阅读(7524) 评论(1) 推荐(0)