python爬虫错误总结

这几天突然想到学习爬虫，于是就从python开始，python教程瞄了两眼，就去网上找别人写的爬虫（爬音乐网站的歌曲）

磕磕绊绊中渐渐地熟悉了python中常用的库和模块。

1.python 2.x（以python2.7为例）和python 3.x（以python 3.4为例）差别还是相当大的

网上有一种戏称，称python 3是python 3000（python 3k），不难看出python 3.x 和python 2.x 的区别有多大了，

这里有两篇对python两个版本的区别总结：博客一、博客二。

python都改了，那么对其支持的第三方模块也是会有变动的，拿beautifulsoup来说吧：

pip install BeautifulSoup 用于安装bs3；bs3仅能在python2下工作（python 3.4之前没有内置pip）

pip install beautifulsoup4 用于安装bs4；bs4可以在python2（2.7+）和python3等版本下工作。

2.Selenium自动化测试框架

期间看到了一个使用selenuim+python爬取网站歌曲的博客：Selenium+Python，

首先，我不知道博主的Python和Selenium是什么版本的，但是鉴于urllib包没报错，推断是Python是python 3.x；

其次文中没有提到 driver = webdriver.Chrome() 启动浏览器是要提前下载驱动的：webdriver启动浏览器，可能这是

自动化测试的常识吧，但我没搞过自动化测试，对这个不清楚。

没有安装driver运行的时候报了这样的错：

对比网页的html，我实在找不出错的原因，根据dom树，就该是这样定位含有歌曲名的a标签，但是它报错了！

posted @ 2018-03-25 23:48 桔子桑阅读(469) 评论(0) 收藏举报

刷新页面返回顶部