上一页 1 ··· 4 5 6 7 8 9 10 11 12 ··· 55 下一页
摘要: 当我们访问 HTTPS 的网站时,需要进行证书验证,在浏览器中可以自动处理验证问题,在 Python 中有以下两种做法: 阅读全文
posted @ 2019-03-14 16:36 孔雀东南飞 阅读(3013) 评论(0) 推荐(0)
摘要: 什么是 Cookie 和 Session: 简单来说,我们访问每一个互联网页面,都是通过 HTTP 协议进行的,而 HTTP 协议是一个无状态协议,所谓的无状态协议即无法维持会话之间的状态。比如,仅使用 HTTP 协议的话,我们登录一个网站的时候,假如登录成功了,但是当我们访问该网站的其他网页的时候 阅读全文
posted @ 2019-03-14 16:35 孔雀东南飞 阅读(649) 评论(0) 推荐(0)
摘要: POST请求也就是向服务器提交数据,通常我们用来提交表单数据: 阅读全文
posted @ 2019-03-14 16:33 孔雀东南飞 阅读(306) 评论(0) 推荐(0)
摘要: 基本用法: 发起带有参数的GET请求: 伪造请求头信息,发起GET请求: 阅读全文
posted @ 2019-03-14 16:32 孔雀东南飞 阅读(4092) 评论(0) 推荐(0)
摘要: requests 是用来发送 HTTP 请求的一个库,requests 是对 urllib 和 urllib2 进行封装的一个模块,用来取代 urllib 和 urllib2,可以使用以下两种方法安装 requests 阅读全文
posted @ 2019-03-14 16:28 孔雀东南飞 阅读(223) 评论(0) 推荐(0)
摘要: (1) Robots Exclusion Protocol,网络爬虫排除标准,也称爬虫协议、机器人协议,用来告诉爬虫和搜索引擎哪些页面可以抓取,哪些不可以抓取(2) Robots 协议以 robots.txt 文件的形式表示,一般放在网站的根目录下,爬虫和搜索引擎要根据文件的内容范围来爬取,如果文件 阅读全文
posted @ 2019-03-14 16:25 孔雀东南飞 阅读(304) 评论(0) 推荐(0)
摘要: urllib 库还提供了 parse 模块,它定义了处理 URL 的标准接口,例如实现 URL 各部分的抽取、合并以及链接转换,常用的方法如下: 阅读全文
posted @ 2019-03-14 16:23 孔雀东南飞 阅读(723) 评论(0) 推荐(0)
摘要: (1) 我们发起 HTTP 请求,有时会发生异常,如请求超时,登录密码错误,请求链接不存在等等,使用 urllib.request.URLError 可以捕获这些与 URL 相关的异常(2) urllib.error.URLError 是一个异常类,如果我们使用 urlopen() 打开一个URL, 阅读全文
posted @ 2019-03-14 16:22 孔雀东南飞 阅读(384) 评论(0) 推荐(0)
摘要: 如何获取 Cookies : 如何携带 Cookie 信息登录到其他页面: 阅读全文
posted @ 2019-03-14 16:21 孔雀东南飞 阅读(596) 评论(0) 推荐(0)
摘要: (1) 如果我们一直用同一个IP去请求同一个网站上的网页,久了之后可能会被该网站服务器屏蔽,因此我们可以使用代理IP来发起请求,代理实际上指的就是代理服务器(2) 当我们使用代理IP发起请求时,服务器端显示的是代理IP的地址,即使被屏蔽了,我们可以换一个代理IP继续爬取,代理IP获取页面:https 阅读全文
posted @ 2019-03-14 16:20 孔雀东南飞 阅读(790) 评论(0) 推荐(0)
上一页 1 ··· 4 5 6 7 8 9 10 11 12 ··· 55 下一页