《自己动手写网络爬虫》读书笔记——网页抓取

　　所谓网页抓取，就是把URL地址中指定的网络资源从网络流中读取出来，保存到本地。类似于使用程序模拟IE浏览器的功能，把URL作为HTTP请求的内容发送到服务器端，然后读取服务器端响应的资源。

　　利用python可以十分简单的抓取指定URL的网络资源。　　

import urllib.request

url = "http://www.piaohua.com/"
data = urllib.request.urlopen(url).read()
data = data.decode('UTF-8')
print(data)

效果如下图所示：

　　这里我们引用了urllib这个库，当然，这里我们只使用了request这个模块，这个模块中定义了一些用于http访问的方法与类。我们首先看一下我们使用的方法：

　　　　urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None)

　　关于这个方法的详细说明可以在python的官方网站上查阅，其会返回一个http.client.HTTPResponse对象，这个对象提供了数种方法，这里我们使用了其Read方法来获取从服务器中返回的数据。

posted @ 2015-05-15 23:46 边军一小兵阅读(93) 评论(0) 收藏举报

刷新页面返回顶部

边军一小兵