joshua&&chen

2018年10月13日

爬虫原理与数据抓取----- urllib2：URLError与HTTPError

摘要： urllib2 的异常错误处理在我们用urlopen或opener.open方法发出一个请求时，如果urlopen或opener.open不能处理这个response，就产生错误。这里主要说的是URLError和HTTPError，以及对它们的错误处理。 URLError URLError 产生阅读全文

posted @ 2018-10-13 10:31 joshua&&chen 阅读(220) 评论(0) 推荐(0)

爬虫原理与数据抓取-----Handler处理器和自定义Opener

摘要： Handler处理器和自定义Opener opener是 urllib2.OpenerDirector 的实例，我们之前一直都在使用的urlopen，它是一个特殊的opener（也就是模块帮我们构建好的）。但是基本的urlopen()方法不支持代理、cookie等其他的HTTP/HTTPS高级阅读全文

posted @ 2018-10-13 10:30 joshua&&chen 阅读(414) 评论(0) 推荐(0)

爬虫原理与数据抓取----- urllib2：GET请求和POST请求

摘要： urllib2默认只支持HTTP/HTTPS的GET和POST方法 urllib.urlencode() urllib 仅可以接受URL，不能创建设置了headers 的Request 类实例；但是 urllib 提供 urlencode 方法用来GET查询字符串的产生，而 urllib2 则没阅读全文

posted @ 2018-10-13 10:26 joshua&&chen 阅读(753) 评论(0) 推荐(0)

爬虫原理与数据抓取----- urllib2模块的基本使用

摘要： urllib2库的基本使用所谓网页抓取，就是把URL地址中指定的网络资源从网络流中读取出来，保存到本地。在Python中有很多库可以用来抓取网页，我们先学习urllib2。 urllib2 是 Python2.7 自带的模块(不需要下载，导入即可使用) urllib2 官方文档：https:// 阅读全文

posted @ 2018-10-13 10:20 joshua&&chen 阅读(274) 评论(0) 推荐(0)

爬虫原理与数据抓取----- HTTP/HTTPS抓包工具-Fiddler

摘要： HTTP代理神器Fiddler Fiddler是一款强大Web调试工具，它能记录所有客户端和服务器的HTTP请求。 Fiddler启动的时候，默认IE的代理设为了127.0.0.1:8888，而其他浏览器是需要手动设置。工作原理 Fiddler 是以代理web服务器的形式工作的，它使用代理地址：1 阅读全文

posted @ 2018-10-13 10:19 joshua&&chen 阅读(811) 评论(0) 推荐(0)

爬虫原理与数据抓取-----HTTP和HTTPS的请求与响应

摘要： HTTP和HTTPS HTTP协议（HyperText Transfer Protocol，超文本传输协议）：是一种发布和接收 HTML页面的方法。 HTTPS（Hypertext Transfer Protocol over Secure Socket Layer）简单讲是HTTP的安全版，在HT 阅读全文

posted @ 2018-10-13 10:12 joshua&&chen 阅读(1614) 评论(0) 推荐(0)

爬虫原理与数据抓取-----（了解）通用爬虫和聚焦爬虫

摘要：通用爬虫和聚焦爬虫根据使用场景，网络爬虫可分为通用爬虫和聚焦爬虫两种. 通用爬虫通用网络爬虫是捜索引擎抓取系统（Baidu、Google、Yahoo等）的重要组成部分。主要目的是将互联网上的网页下载到本地，形成一个互联网内容的镜像备份。通用搜索引擎（Search Engine）工作阅读全文

posted @ 2018-10-13 10:06 joshua&&chen 阅读(1831) 评论(0) 推荐(0)

2018年8月25日

django 视图-----状态保持

摘要：状态保持 http协议是无状态的：每次请求都是一次新的请求，不会记得之前通信的状态客户端与服务器端的一次通信，就是一次会话实现状态保持的方式：在客户端或服务器端存储与会话有关的数据存储方式包括cookie、session，会话一般指session对象使用cookie，所有数据存储在客户端，注阅读全文

posted @ 2018-08-25 14:59 joshua&&chen 阅读(210) 评论(0) 推荐(0)

django 视图-----Response对象

摘要： HttpResponse对象在django.http模块中定义了HttpResponse对象的API HttpRequest对象由Django自动创建，HttpResponse对象由程序员创建不调用模板，直接返回数据调用模板属性 content：表示返回的内容，字符串类型 charset：表阅读全文

posted @ 2018-08-25 14:57 joshua&&chen 阅读(248) 评论(0) 推荐(0)

django 视图-----Reqeust对象

摘要： HttpReqeust对象服务器接收到http协议的请求后，会根据报文创建HttpRequest对象视图函数的第一个参数是HttpRequest对象在django.http模块中定义了HttpRequest对象的API 属性下面除非特别说明，属性都是只读的 path：一个字符串，表示请求的页阅读全文

posted @ 2018-08-25 14:56 joshua&&chen 阅读(137) 评论(0) 推荐(0)

公告