摘要: urllib2 的异常错误处理 在我们用urlopen或opener.open方法发出一个请求时,如果urlopen或opener.open不能处理这个response,就产生错误。 这里主要说的是URLError和HTTPError,以及对它们的错误处理。 URLError URLError 产生 阅读全文
posted @ 2018-10-13 10:31 joshua&&chen 阅读(220) 评论(0) 推荐(0)
摘要: Handler处理器 和 自定义Opener opener是 urllib2.OpenerDirector 的实例,我们之前一直都在使用的urlopen,它是一个特殊的opener(也就是模块帮我们构建好的)。 但是基本的urlopen()方法不支持代理、cookie等其他的HTTP/HTTPS高级 阅读全文
posted @ 2018-10-13 10:30 joshua&&chen 阅读(414) 评论(0) 推荐(0)
摘要: urllib2默认只支持HTTP/HTTPS的GET和POST方法 urllib.urlencode() urllib 仅可以接受URL,不能创建 设置了headers 的Request 类实例; 但是 urllib 提供 urlencode 方法用来GET查询字符串的产生,而 urllib2 则没 阅读全文
posted @ 2018-10-13 10:26 joshua&&chen 阅读(753) 评论(0) 推荐(0)
摘要: urllib2库的基本使用 所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地。 在Python中有很多库可以用来抓取网页,我们先学习urllib2。 urllib2 是 Python2.7 自带的模块(不需要下载,导入即可使用) urllib2 官方文档:https:// 阅读全文
posted @ 2018-10-13 10:20 joshua&&chen 阅读(274) 评论(0) 推荐(0)
摘要: HTTP代理神器Fiddler Fiddler是一款强大Web调试工具,它能记录所有客户端和服务器的HTTP请求。 Fiddler启动的时候,默认IE的代理设为了127.0.0.1:8888,而其他浏览器是需要手动设置。 工作原理 Fiddler 是以代理web服务器的形式工作的,它使用代理地址:1 阅读全文
posted @ 2018-10-13 10:19 joshua&&chen 阅读(811) 评论(0) 推荐(0)
摘要: HTTP和HTTPS HTTP协议(HyperText Transfer Protocol,超文本传输协议):是一种发布和接收 HTML页面的方法。 HTTPS(Hypertext Transfer Protocol over Secure Socket Layer)简单讲是HTTP的安全版,在HT 阅读全文
posted @ 2018-10-13 10:12 joshua&&chen 阅读(1614) 评论(0) 推荐(0)
摘要: 通用爬虫和聚焦爬虫 根据使用场景,网络爬虫可分为 通用爬虫 和 聚焦爬虫 两种. 通用爬虫 通用网络爬虫 是 捜索引擎抓取系统(Baidu、Google、Yahoo等)的重要组成部分。主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份。 通用搜索引擎(Search Engine)工作 阅读全文
posted @ 2018-10-13 10:06 joshua&&chen 阅读(1831) 评论(0) 推荐(0)
摘要: 状态保持 http协议是无状态的:每次请求都是一次新的请求,不会记得之前通信的状态 客户端与服务器端的一次通信,就是一次会话 实现状态保持的方式:在客户端或服务器端存储与会话有关的数据 存储方式包括cookie、session,会话一般指session对象 使用cookie,所有数据存储在客户端,注 阅读全文
posted @ 2018-08-25 14:59 joshua&&chen 阅读(210) 评论(0) 推荐(0)
摘要: HttpResponse对象 在django.http模块中定义了HttpResponse对象的API HttpRequest对象由Django自动创建,HttpResponse对象由程序员创建 不调用模板,直接返回数据 调用模板 属性 content:表示返回的内容,字符串类型 charset:表 阅读全文
posted @ 2018-08-25 14:57 joshua&&chen 阅读(248) 评论(0) 推荐(0)
摘要: HttpReqeust对象 服务器接收到http协议的请求后,会根据报文创建HttpRequest对象 视图函数的第一个参数是HttpRequest对象 在django.http模块中定义了HttpRequest对象的API 属性 下面除非特别说明,属性都是只读的 path:一个字符串,表示请求的页 阅读全文
posted @ 2018-08-25 14:56 joshua&&chen 阅读(137) 评论(0) 推荐(0)