孔雀东南飞

2019年3月14日

摘要：当我们访问 HTTPS 的网站时，需要进行证书验证，在浏览器中可以自动处理验证问题，在 Python 中有以下两种做法：阅读全文

posted @ 2019-03-14 16:36 孔雀东南飞阅读(3015) 评论(0) 推荐(0)

摘要：什么是 Cookie 和 Session：简单来说，我们访问每一个互联网页面，都是通过 HTTP 协议进行的，而 HTTP 协议是一个无状态协议，所谓的无状态协议即无法维持会话之间的状态。比如，仅使用 HTTP 协议的话，我们登录一个网站的时候，假如登录成功了，但是当我们访问该网站的其他网页的时候阅读全文

posted @ 2019-03-14 16:35 孔雀东南飞阅读(652) 评论(0) 推荐(0)

使用 requests 发送 POST 请求

摘要： POST请求也就是向服务器提交数据，通常我们用来提交表单数据：阅读全文

posted @ 2019-03-14 16:33 孔雀东南飞阅读(309) 评论(0) 推荐(0)

使用 requests 发送 GET 请求

摘要：基本用法：发起带有参数的GET请求：伪造请求头信息，发起GET请求：阅读全文

posted @ 2019-03-14 16:32 孔雀东南飞阅读(4095) 评论(0) 推荐(0)

requests 安装

摘要： requests 是用来发送 HTTP 请求的一个库，requests 是对 urllib 和 urllib2 进行封装的一个模块，用来取代 urllib 和 urllib2，可以使用以下两种方法安装 requests 阅读全文

posted @ 2019-03-14 16:28 孔雀东南飞阅读(223) 评论(0) 推荐(0)

使用 urllib 分析 Robots 协议

摘要： (1) Robots Exclusion Protocol，网络爬虫排除标准，也称爬虫协议、机器人协议，用来告诉爬虫和搜索引擎哪些页面可以抓取，哪些不可以抓取(2) Robots 协议以 robots.txt 文件的形式表示，一般放在网站的根目录下，爬虫和搜索引擎要根据文件的内容范围来爬取，如果文件阅读全文

posted @ 2019-03-14 16:25 孔雀东南飞阅读(307) 评论(0) 推荐(0)

使用 urllib 解析 URL 链接

摘要： urllib 库还提供了 parse 模块，它定义了处理 URL 的标准接口，例如实现 URL 各部分的抽取、合并以及链接转换，常用的方法如下：阅读全文

posted @ 2019-03-14 16:23 孔雀东南飞阅读(725) 评论(0) 推荐(0)

使用 urllib 处理 HTTP 异常

摘要： (1) 我们发起 HTTP 请求，有时会发生异常，如请求超时，登录密码错误，请求链接不存在等等，使用 urllib.request.URLError 可以捕获这些与 URL 相关的异常(2) urllib.error.URLError 是一个异常类，如果我们使用 urlopen() 打开一个URL，阅读全文

posted @ 2019-03-14 16:22 孔雀东南飞阅读(388) 评论(0) 推荐(0)

使用 urllib 处理 Cookies 信息

摘要：如何获取 Cookies ：如何携带 Cookie 信息登录到其他页面：阅读全文

posted @ 2019-03-14 16:21 孔雀东南飞阅读(598) 评论(0) 推荐(0)

使用 urllib 设置代理服务

摘要： (1) 如果我们一直用同一个IP去请求同一个网站上的网页，久了之后可能会被该网站服务器屏蔽，因此我们可以使用代理IP来发起请求，代理实际上指的就是代理服务器(2) 当我们使用代理IP发起请求时，服务器端显示的是代理IP的地址，即使被屏蔽了，我们可以换一个代理IP继续爬取，代理IP获取页面：https 阅读全文

posted @ 2019-03-14 16:20 孔雀东南飞阅读(792) 评论(0) 推荐(0)

公告