《自己动手写网络爬虫》读书笔记——网页抓取
所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地。类似于使用程序模拟IE浏览器的功能,把URL作为HTTP请求的内容发送到服务器端,然后读取服务器端响应的资源。
利用python可以十分简单的抓取指定URL的网络资源。
import urllib.request
url = "http://www.piaohua.com/"
data = urllib.request.urlopen(url).read()
data = data.decode('UTF-8')
print(data)
效果如下图所示:

这里我们引用了urllib这个库,当然,这里我们只使用了request这个模块,这个模块中定义了一些用于http访问的方法与类。我们首先看一下我们使用的方法:
urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None)
关于这个方法的详细说明可以在python的官方网站上查阅,其会返回一个http.client.HTTPResponse对象,这个对象提供了数种方法,这里我们使用了其Read方法来获取从服务器中返回的数据。

浙公网安备 33010602011771号