爬虫 - 随笔分类 - shy车队破风手

爬取https网站

摘要：python2.7 python 3.6 用爬虫爬取豆瓣，报错“SSL: CERTIFICATE_VERIFY_FAILED”，Python 升级到 2.7.9 之后引入了一个新特性，当使用urllib.urlopen打开一个 https 链接时，会验证一次 SSL 证书。而当目标网站使用的是自签名阅读全文

posted @ 2017-12-17 17:30 shy车队破风手阅读(4341) 评论(0) 推荐(2)

Selenium + PhantomJS + python 简单实现动态页面的爬取

摘要：Selenium 一、简介 selenium是一个用于Web应用自动化程序测试的工具，测试直接运行在浏览器中，就像真正的用户在操作一样。 selenium2支持通过驱动真实浏览器（FirfoxDriver，IternetExplorerDriver，OperaDriver，ChromeDriver）阅读全文

posted @ 2017-11-25 22:20 shy车队破风手阅读(854) 评论(0) 推荐(1)

requests、bs4

摘要：requests Python标准库中提供了：urllib、urllib2、httplib等模块以供Http请求，但是，它的 API 太渣了。它是为另一个时代、另一个互联网所创建的。它需要巨量的工作，甚至包括各种方法覆盖，来完成最简单的任务。 Requests 是使用 Apache2 License 阅读全文

posted @ 2017-08-28 21:47 shy车队破风手阅读(263) 评论(0) 推荐(0)

关灯吃面

随笔分类 - 爬虫

公告