摘要:
urllib2 的异常错误处理 在我们用urlopen或opener.open方法发出一个请求时,如果urlopen或opener.open不能处理这个response,就产生错误。 这里主要说的是URLError和HTTPError,以及对它们的错误处理。 URLError URLError 产生 阅读全文
posted @ 2018-10-13 10:31
joshua&&chen
阅读(220)
评论(0)
推荐(0)
摘要:
Handler处理器 和 自定义Opener opener是 urllib2.OpenerDirector 的实例,我们之前一直都在使用的urlopen,它是一个特殊的opener(也就是模块帮我们构建好的)。 但是基本的urlopen()方法不支持代理、cookie等其他的HTTP/HTTPS高级 阅读全文
posted @ 2018-10-13 10:30
joshua&&chen
阅读(414)
评论(0)
推荐(0)
摘要:
urllib2默认只支持HTTP/HTTPS的GET和POST方法 urllib.urlencode() urllib 仅可以接受URL,不能创建 设置了headers 的Request 类实例; 但是 urllib 提供 urlencode 方法用来GET查询字符串的产生,而 urllib2 则没 阅读全文
posted @ 2018-10-13 10:26
joshua&&chen
阅读(753)
评论(0)
推荐(0)
摘要:
urllib2库的基本使用 所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地。 在Python中有很多库可以用来抓取网页,我们先学习urllib2。 urllib2 是 Python2.7 自带的模块(不需要下载,导入即可使用) urllib2 官方文档:https:// 阅读全文
posted @ 2018-10-13 10:20
joshua&&chen
阅读(274)
评论(0)
推荐(0)
摘要:
HTTP代理神器Fiddler Fiddler是一款强大Web调试工具,它能记录所有客户端和服务器的HTTP请求。 Fiddler启动的时候,默认IE的代理设为了127.0.0.1:8888,而其他浏览器是需要手动设置。 工作原理 Fiddler 是以代理web服务器的形式工作的,它使用代理地址:1 阅读全文
posted @ 2018-10-13 10:19
joshua&&chen
阅读(811)
评论(0)
推荐(0)
摘要:
HTTP和HTTPS HTTP协议(HyperText Transfer Protocol,超文本传输协议):是一种发布和接收 HTML页面的方法。 HTTPS(Hypertext Transfer Protocol over Secure Socket Layer)简单讲是HTTP的安全版,在HT 阅读全文
posted @ 2018-10-13 10:12
joshua&&chen
阅读(1614)
评论(0)
推荐(0)
摘要:
通用爬虫和聚焦爬虫 根据使用场景,网络爬虫可分为 通用爬虫 和 聚焦爬虫 两种. 通用爬虫 通用网络爬虫 是 捜索引擎抓取系统(Baidu、Google、Yahoo等)的重要组成部分。主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份。 通用搜索引擎(Search Engine)工作 阅读全文
posted @ 2018-10-13 10:06
joshua&&chen
阅读(1831)
评论(0)
推荐(0)

浙公网安备 33010602011771号