python-selenium使用笔记
selenium是一个模拟人对浏览器操作的python第三方库,其爬取信息手段主要通过定位爬取字段在其html文件的xpath获得,进一步地,它能模拟人进行滑块验证操作、填写信息等 攻破反爬虫措施。
安装selenium
首先按win+R输入cmd,在DOS黑框里转到python文件的scripts文件夹目录,或者将这个目录添加到用户环境变量中;
输入“pip install selenium”安装selenium 。
这里我的scripts文件目录写入了用户环境变量Path里,故可以直接安装;若非,则需要cd命令转到scripts目录
selenium连接chrome浏览器
一般地,目前国内部分用户没有直接的市场获取谷歌的Chrome浏览器并能够直接成功运行,这里主要给出老版(也可能是盗版,总之我之前用的是Chromium)谷歌浏览器Chromium与selenium联通的教程
一定要在浏览器->设置->关于Chrome浏览器里找到当前chrome版本,再访问链接
在该网站找到匹配自己chromium浏览器版本的压缩包,前面三段版本号匹配就可。
首先下载后将其解压到Python文件的Scripts文件里,得到chromedriver.exe。
(最好把Python文件夹弄到某盘(C或D或E盘)直属目录下,同时文件夹Scripts在Python文件里,方便自己理清和后续处理。)
然后把chromedriver.exe复制到chrome浏览器的目录下,chromium浏览器在本机(我的电脑)目录为C:\Users\Acer\AppData\Local\Chromium\Application。(一般应该是在Google目录下,但部分版本不是)
接着打开控制面板->高级->环境变量->用户变量,需要把“chrome浏览器的目录“ 和“在Scripts文件夹里这份chromedriver.exe的目录+本身全名“ 添加到用户环境变量的PATH变量中,如下图的后两行。
之后在Scripts文件找到刚刚的chromedriver.exe,双击打开,显示运行成功
最后在写代码时,注意刚刚“不在Google目录下”的影响,需要自己在代码中添加代码帮助程序寻找资源(寻找chrome浏览器位置),如下:
若已经使用正版(或者说是新版)Google浏览器Chrome,上述操作过程类似,代码可直接为:
运行成功结果图示