6.1 Selenium简介
用Python爬取动态页面时,普通的requests、urllib2无法实现。如下两图所示的某旅游网站自由行路线页面,单击“下一页”按钮时会加载新的内容,而网页URL不变(没有传入页码相关的参数),requests、urllib2无法抓取这些动态加载的内容,此时就需要Selenium了。

Selenium是一个用于Web应用程序测试的工具。Selenium测试直接在浏览器中运行,就像真正的用户在操作一样,其支持的浏览器包括IE、Chrome、Firefox等。使用它爬取页面十分方便,只需要按照访问步骤模拟人的操作就可以了,不用担心Cookie、Session的处理。它可以帮助你输入账户、密码,然后单击“登录”按钮,也可以单击“下一页”按钮实现自动翻页。以上这些功能在应对一些反爬虫机制时十分有用。
接下来进行具体的操作,首先在PyCharm中安装Selenium框架,如下图所示。

浙公网安备 33010602011771号