摘要:
使用urllib的request模块,我们可以方便地实现请求的发送并得到响应,本节就来看下它的具体用法。 1. urlopen() urllib.request模块提供了最基本的构造HTTP请求的方法,利用它可以模拟浏览器的一个请求发起过程,同时它还带有处理授权验证(authenticaton)、重 阅读全文
posted @ 2018-09-11 15:46
Shadow_Y
阅读(525)
评论(0)
推荐(0)
摘要:
前一节我们了解了请求的发送过程,但是在网络不好的情况下,如果出现了异常,该怎么办呢?这时如果不处理这些异常,程序很可能因报错而终止运行,所以异常处理还是十分有必要的。 urllib的error模块定义了由request模块产生的异常。如果出现了问题,request模块便会抛出error模块中定义的异 阅读全文
posted @ 2018-09-11 15:46
Shadow_Y
阅读(263)
评论(1)
推荐(0)
摘要:
在Python 2中,有urllib和urllib2两个库来实现请求的发送。而在Python 3中,已经不存在urllib2这个库了,统一为urllib,其官方文档链接为:https://docs.python.org/3/library/urllib.html。 首先,了解一下urllib库,它是 阅读全文
posted @ 2018-09-11 15:45
Shadow_Y
阅读(303)
评论(0)
推荐(0)
摘要:
在浏览网站的过程中,我们经常会遇到需要登录的情况,有些页面只有登录之后才可以访问,而且登录之后可以连续访问很多次网站,但是有时候过一段时间就需要重新登录。还有一些网站,在打开浏览器时就自动登录了,而且很长时间都不会失效,这种情况又是为什么?其实这里面涉及会话和Cookies的相关知识,本节就来揭开它 阅读全文
posted @ 2018-09-11 15:44
Shadow_Y
阅读(211)
评论(0)
推荐(0)
摘要:
我们在做爬虫的过程中经常会遇到这样的情况,最初爬虫正常运行,正常抓取数据,一切看起来都是那么美好,然而一杯茶的功夫可能就会出现错误,比如403 Forbidden,这时候打开网页一看,可能会看到“您的IP访问频率太高”这样的提示。出现这种现象的原因是网站采取了一些反爬虫措施。比如,服务器会检测某个I 阅读全文
posted @ 2018-09-11 15:44
Shadow_Y
阅读(458)
评论(0)
推荐(1)
摘要:
我们可以把互联网比作一张大网,而爬虫(即网络爬虫)便是在网上爬行的蜘蛛。把网的节点比作一个个网页,爬虫爬到这就相当于访问了该页面,获取了其信息。可以把节点间的连线比作网页与网页之间的链接关系,这样蜘蛛通过一个节点后,可以顺着节点连线继续爬行到达下一个节点,即通过一个网页继续获取后续的网页,这样整个网 阅读全文
posted @ 2018-09-11 15:43
Shadow_Y
阅读(397)
评论(0)
推荐(0)
摘要:
用浏览器访问网站时,页面各不相同,你有没有想过它为何会呈现这个样子呢?本节中,我们就来了解一下网页的基本组成、结构和节点等内容。 1. 网页的组成 网页可以分为三大部分——HTML、CSS和JavaScript。如果把网页比作一个人的话,HTML相当于骨架,JavaScript相当于肌肉,CSS相当 阅读全文
posted @ 2018-09-11 15:42
Shadow_Y
阅读(508)
评论(0)
推荐(0)
摘要:
在本节中,我们会详细了解HTTP的基本原理,了解在浏览器中敲入URL到获取网页内容之间发生了什么。了解了这些内容,有助于我们进一步了解爬虫的基本原理。 1. URI和URL 这里我们先了解一下URI和URL,URI的全称为Uniform Resource Identifier,即统一资源标志符,UR 阅读全文
posted @ 2018-09-11 15:41
Shadow_Y
阅读(649)
评论(0)
推荐(1)
摘要:
Gerapy是一个Scrapy分布式管理模块,本节就来介绍一下它的安装方式。 1. 相关链接 GitHub:https://github.com/Gerapy 2. pip安装 这里推荐使用pip安装,命令如下: 1 pip3 install gerapy 1 pip3 install gerapy 阅读全文
posted @ 2018-09-11 15:40
Shadow_Y
阅读(195)
评论(0)
推荐(0)
摘要:
安装好了Scrapyd之后,我们可以直接请求它提供的API来获取当前主机的Scrapy任务运行状况。比如,某台主机的IP为192.168.1.1,则可以直接运行如下命令获取当前主机的所有Scrapy项目: 1 curl http://localhost:6800/listprojects.json 阅读全文
posted @ 2018-09-11 15:39
Shadow_Y
阅读(614)
评论(0)
推荐(0)