会员
周边
新闻
博问
闪存
赞助商
YouClaw
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
关灯吃面
博客园
首页
新随笔
联系
管理
订阅
随笔分类 -
爬虫
爬取https网站
摘要:python2.7 python 3.6 用爬虫爬取豆瓣,报错“SSL: CERTIFICATE_VERIFY_FAILED”,Python 升级到 2.7.9 之后引入了一个新特性,当使用urllib.urlopen打开一个 https 链接时,会验证一次 SSL 证书。而当目标网站使用的是自签名
阅读全文
posted @
2017-12-17 17:30
shy车队破风手
阅读(4341)
评论(0)
推荐(2)
Selenium + PhantomJS + python 简单实现动态页面的爬取
摘要:Selenium 一、简介 selenium是一个用于Web应用自动化程序测试的工具,测试直接运行在浏览器中,就像真正的用户在操作一样。 selenium2支持通过驱动真实浏览器(FirfoxDriver,IternetExplorerDriver,OperaDriver,ChromeDriver)
阅读全文
posted @
2017-11-25 22:20
shy车队破风手
阅读(854)
评论(0)
推荐(1)
requests、bs4
摘要:requests Python标准库中提供了:urllib、urllib2、httplib等模块以供Http请求,但是,它的 API 太渣了。它是为另一个时代、另一个互联网所创建的。它需要巨量的工作,甚至包括各种方法覆盖,来完成最简单的任务。 Requests 是使用 Apache2 License
阅读全文
posted @
2017-08-28 21:47
shy车队破风手
阅读(263)
评论(0)
推荐(0)
公告