2018 年 4月 14 日随笔档案 - 小杜同学的嘚啵嘚

2018年4月14日

Python开发爬虫之动态网页抓取篇：爬取博客评论数据——通过Selenium模拟浏览器抓取

摘要：区别于上篇动态网页抓取，这里介绍另一种方法，即使用浏览器渲染引擎。直接用浏览器在显示网页时解析 HTML、应用 CSS 样式并执行 JavaScript 的语句。这个方法在爬虫过程中会打开一个浏览器加载该网页，自动操作浏览器浏览各个网页，顺便把数据抓下来。用一句简单而通俗的话说，就是使用浏览器渲染阅读全文

posted @ 2018-04-14 21:57 小杜同学的嘚啵嘚阅读(2270) 评论(0) 推荐(0)

Python开发爬虫之动态网页抓取篇：爬取博客评论数据——通过浏览器审查元素解析真实网页地址

摘要：由于主流网站都使用JavaScript展示网页内容，和前面简单抓取静态网页不同的是，在使用JavaScript时，很多内容并不会出现在HTML源代码中，而是在HTML源码位置放上一段JavaScript代码，最后呈现出来的数据是通过JavaScript提取服务器返回的数据加载到源代码中进行呈现。因此阅读全文

posted @ 2018-04-14 15:36 小杜同学的嘚啵嘚阅读(7541) 评论(1) 推荐(0)

小杜同学的嘚啵嘚

希望能够帮助每一位一脸懵b的同学，希望大家能够对刚入行的同学多些宽容

公告