《自己动手写网络爬虫》读书笔记——网页抓取

  所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地。类似于使用程序模拟IE浏览器的功能,把URL作为HTTP请求的内容发送到服务器端,然后读取服务器端响应的资源。

  利用python可以十分简单的抓取指定URL的网络资源。  

import urllib.request

url = "http://www.piaohua.com/"
data = urllib.request.urlopen(url).read()
data = data.decode('UTF-8')
print(data)

效果如下图所示:

 

  

  这里我们引用了urllib这个库,当然,这里我们只使用了request这个模块,这个模块中定义了一些用于http访问的方法与类。我们首先看一下我们使用的方法:

    urllib.request.urlopen(urldata=None[timeout]*cafile=Nonecapath=Nonecadefault=Falsecontext=None)

  关于这个方法的详细说明可以在python的官方网站上查阅,其会返回一个http.client.HTTPResponse对象,这个对象提供了数种方法,这里我们使用了其Read方法来获取从服务器中返回的数据。

posted @ 2015-05-15 23:46  边军一小兵  阅读(93)  评论(0)    收藏  举报