摘要: 分析Robots协议: 1.Robots协议 也称为爬虫协议,机器人协议,全称为网络爬虫排除标准,用来告诉爬虫和搜索引擎哪些页面可以抓取,哪些页面不可以抓取。通常放在一个叫做robots.txt的文本文件,一般放在网站的根目录下。当搜索爬虫访问一个站点时,会先检查这个站点根目录下是否有该文件,如果存 阅读全文
posted @ 2018-08-19 12:34 gausstu 阅读(292) 评论(0) 推荐(0)
摘要: 这一章进行解析链接的操作 urllib库里提供了一个parse模块,他定义了URL的标准接口,实现URL各部分的抽取,合并以及链接转换,它支持多种协议,如http,https,ftp,file等... 下面我们来介绍里面的一些方法: urlparse() 该方法可以实现URL的识别与分段 可见返回结 阅读全文
posted @ 2018-08-19 12:33 gausstu 阅读(166) 评论(0) 推荐(0)
摘要: 这一节我们主要讲解处理异常 在我们发送请求的时候,有的时候可能网络不好,出现了异常,程序因为报错而终止运行,为此我们需要对其进行处理 urllib里的error模块定义了request模块产生的异常,下面便介绍里面的函数: URLError 该类是继承自OSError类,是error异常模块的基类, 阅读全文
posted @ 2018-08-19 12:32 gausstu 阅读(187) 评论(0) 推荐(0)
摘要: 2.request 首先上实例 与之前一样生成了python官网的内容,但这次我们构造的是一个Request类,我们可以将请求独立成一个对象,也可以配置参数 class.urllib.request.Request(url , data = None , headers = {} , origin_ 阅读全文
posted @ 2018-08-19 12:31 gausstu 阅读(233) 评论(0) 推荐(0)
摘要: 最近入手学习Python3的网络爬虫开发方向,入手的教材是崔庆才的《python3网络爬虫开发实战》,作为温故所学的内容同时也是分享自己操作时的一些经验与困惑,所以开了这个日记,也算是监督自己去学习。在这一系列的日记中我也会随时加上一些书中没有的内容作为对所学知识的一个补充。 (1)使用urllib 阅读全文
posted @ 2018-08-19 12:30 gausstu 阅读(1289) 评论(0) 推荐(0)