摘要: reuqests库中有很多便捷的方法,比如以GET方式获得网页,在requests库中就是方法get(),上代码 相当于urlopen的方法,得到一个Response对象,然后分别输出他的类型,状态码,相应体的类型,内容以及Cookies requests还有许多的方法比如post,put,dele 阅读全文
posted @ 2018-08-21 14:08 gausstu 阅读(672) 评论(0) 推荐(0)
摘要: 1.bytes和str函数 这个得感谢这个博主的分享https://www.cnblogs.com/chownjy/p/6625299.html 那我接下来就简述下他文章的意思吧: bytes格式时二进制型的文件,全为010101之类的,而str为字符串型的 bytes函数中的参数为bytes(字符 阅读全文
posted @ 2018-08-20 23:38 gausstu 阅读(246) 评论(0) 推荐(0)
摘要: 分析Robots协议: 1.Robots协议 也称为爬虫协议,机器人协议,全称为网络爬虫排除标准,用来告诉爬虫和搜索引擎哪些页面可以抓取,哪些页面不可以抓取。通常放在一个叫做robots.txt的文本文件,一般放在网站的根目录下。当搜索爬虫访问一个站点时,会先检查这个站点根目录下是否有该文件,如果存 阅读全文
posted @ 2018-08-19 12:34 gausstu 阅读(292) 评论(0) 推荐(0)
摘要: 这一章进行解析链接的操作 urllib库里提供了一个parse模块,他定义了URL的标准接口,实现URL各部分的抽取,合并以及链接转换,它支持多种协议,如http,https,ftp,file等... 下面我们来介绍里面的一些方法: urlparse() 该方法可以实现URL的识别与分段 可见返回结 阅读全文
posted @ 2018-08-19 12:33 gausstu 阅读(166) 评论(0) 推荐(0)
摘要: 这一节我们主要讲解处理异常 在我们发送请求的时候,有的时候可能网络不好,出现了异常,程序因为报错而终止运行,为此我们需要对其进行处理 urllib里的error模块定义了request模块产生的异常,下面便介绍里面的函数: URLError 该类是继承自OSError类,是error异常模块的基类, 阅读全文
posted @ 2018-08-19 12:32 gausstu 阅读(187) 评论(0) 推荐(0)
摘要: 2.request 首先上实例 与之前一样生成了python官网的内容,但这次我们构造的是一个Request类,我们可以将请求独立成一个对象,也可以配置参数 class.urllib.request.Request(url , data = None , headers = {} , origin_ 阅读全文
posted @ 2018-08-19 12:31 gausstu 阅读(233) 评论(0) 推荐(0)
摘要: 最近入手学习Python3的网络爬虫开发方向,入手的教材是崔庆才的《python3网络爬虫开发实战》,作为温故所学的内容同时也是分享自己操作时的一些经验与困惑,所以开了这个日记,也算是监督自己去学习。在这一系列的日记中我也会随时加上一些书中没有的内容作为对所学知识的一个补充。 (1)使用urllib 阅读全文
posted @ 2018-08-19 12:30 gausstu 阅读(1289) 评论(0) 推荐(0)
摘要: 这篇随笔我会随时更新,当发现了自己觉得不错的内容是就会把链接分享过来,当做一个集合吧 17个新手常见的Python运行错误 https://buluo.qq.com/p/detail.html?bid=315723&pid=7795824-1478593320 阅读全文
posted @ 2018-08-16 23:41 gausstu 阅读(125) 评论(0) 推荐(0)
摘要: 目前遇见的有三种类型: 阅读全文
posted @ 2018-08-16 23:30 gausstu 阅读(1150) 评论(0) 推荐(0)