一只小爬虫(转)

我还年轻 , 我渴望上路 ...
- <在路上>

引子

当Google创始人用python写下他们第一个简陋的爬虫, 运行在同样简陋的服务器上的时候 ;
很少有人能够想象 , 在接下的数十年间 , 他们是怎样地颠覆了互联网乃至于人类的世界 ;

今天 , 我们谨以一只小小的python爬虫 , 作为我们的第一个编程作品 ;纪念并缅怀那个从python开始征途的伟大搜索引擎

注 : 上图为Google的最初机房

预习材料

* python科普
* 易百python教程
* 笨方法学python
* 两个小时学会python 作者 : 刘鑫
* Python 2.7 官方教程中英文对照版本
* 正则表达式
* [英文] codecademy python 教程

课前准备

python : 我们最爱的编程语言

进入pyhon官网，选择你所需要的版本，进行下载安装。

python安装完毕之后，会在开始菜单的python中，看到python帮助手册。
帮助手册可以作为案头书，帮助我们快速查找。

如下图：我们对with 语句不熟悉，就可以实用帮助手册的索引，快速查到相应的文档。

ulipad : python代码编辑器

ulipad 是一个很好用的python编辑器。跨平台，使用wxPython 编写。

作者，limodou 。

我们从源码进行安装。

首先，安装：

* comtypes
* wxPython

然后，下载ulipad

解压后运行ulipad.pyw

ulipad提供了代码的编辑，提示，运行，调试多种功能。

setuptools 是python的包管理器 , 对应的命令是 easy_install 。

什么，你存在了这么多年还不知道什么叫做 “包管理” ！！！

包管理就是 360的软件管家！！！

它可以帮我们安装 , 更新软件（或代码库）。

下载脚本 ez_setup.py , 安装 easy_install

windows用户按 Window键 + R ，输入cmd打开命令行窗口

setuptools 用法如下 :

     * 安装模块 :
        easy_install 包的名称

    * 强制更新/重装 python的模块 :
        easy_install -U 包的名称

requests : for Humans 的网络库

requests是一个github[注1]上排名前100名的项目。

官方的文档在自己首页昭告天下 :

Requests : HTTP for Humans

于是我意识到 , 这货是为地球人准备的网络库。我们用它来在python中读取网页。

先切换到easy_install的安装目录中 , 然后执行 :

easy_install requests

如图:

wget : 命令行的下载工具

wget是Linux中的下载工具。我们也可以在windows上使用它。

首先 , 下载wget的windows版本。

然后 , 将文件解压到C:\WINDOWS下，就可以直接在命令行中使用wget。

下面我们用wget下载一个我们即将用到的python模块。

在终端下：

wget http://school-src.42qu.com/1_spider/extract.py

即可。

firebug: 前端工程师的神器

Firebug是Firefox的插件 , 前端工程师的神器。

记得用 Firefox安装 , 亲。

Firebug有多个控制面板，常用的有html，net ,console。

使用html面板我们可以查看整个dom的文档树。

通过net面板我们可以查看到http的请求。

爬虫是什么?

有网络的地方就有爬虫，爬虫英文名称spider，有时也叫它机器人(bot)。它是用来抓取网站数据的程序。

比如: 我们通过一段程序，定期去抓取类似美团，拉手网上的数据，将这些信息存储到数据库里，然后加上展示页面，一个团购导航站就问世了。

毫无疑问，爬虫是很多网站的初期数据来源。

先不说，google，百度这样的以爬虫起家的搜索引擎，就连豆瓣这样的文艺小清新网站，也需要爬虫去抓取图书，唱片的基本信息。

今天我们就以落网为例，来实现一个下载mp3的小爬虫。

首先，右键点击网页上的元素，用Firebug的inspect工具审查元素。

我们发现落网的歌曲是通过一个<iframe>标签内嵌一个flash的播放器来播放的。

于是，我们将iframe中的src（http://www.luoo.net/radio/radio395/mp3.xml）提取出来

新开一个页面，打开链接，一下子好清爽，页面上只有一个播放器了，而我们所要的歌曲名和下载地址也都在这个播放器中。

继续使用firebug，将panel切换到Net。

因为刚才我们浏览页面的时候，已经访问过395，数据被浏览器缓存，刷新的时候就看不到全部请求。

我们将网址的395 换成394

刷新 http://www.luoo.net/radio/radio394/mp3.xml

Firebug的NET标签中中列出了所有的请求。其中有一个叫做mp3.xml的链接。

新标签页打开，没错，这就是我们要找的东西。

打开这个xml页面，其中是一个个

<song id="01" path="http://ftp.luoo.net/radio/radio395/01.mp3" title="小木船"/>

这种标签。 path 和title就是所需的数据。

但总不能这么手工下载吧。

爬虫代码，我来了 ^_^

不过在此之前，请你先认真阅读预习材料，对python的语言有个基本的认识。

爬虫代码

首先，下载一个extract库文件

在同一层目录下用ulipad编辑下面的代码

#! /usr/bin/env python 
#coding=utf-8 
  
import requests 
from os.path import dirname, abspath 
from extract import extract, extract_all 
import re 
RE_CN = re.compile(ur'[\u4e00-\u9fa5]+') 
PREFIX = dirname(abspath(__file__)) 
  
with open("%s/down.bat"%PREFIX,"w") as down: 
    for i in xrange(1, 396): 
        for url in ( 
            'http://www.luoo.net/radio/radio%s/mp3.xml'%i, 
            'http://www.luoo.net/radio/radio%s/mp3player.xml'%i 
        ): 
  
            r = requests.get(url) 
            print url 
            if r.status_code == 200: 
                for path, name in zip( 
                    extract_all('path="', '"', r.content), 
                    extract_all('title="', '"', r.content) 
                ): 
                    if RE_CN.match(name.decode('utf-8', 'ignore')): 
                        down.write('wget %s -O "%s/%s.mp3"\n'%( 
                           path,PREFIX,name.decode('utf-8', 
                            "ignore").encode("gb18030","ignore"))) 
                break

建议大家用ulipad新建文档，手写一遍代码!!!

再强调一遍，手写！！！不要复制粘贴！！！

代码分析

因为我们的目的是下载落网上的所有中文歌曲。所以这里要做的工作主要分为三个部分。
首先，我们要对目标网址发出请求，获取它的反馈。这里就是requests这个库的作用了。

r = requests.get(url) 
     if r.status_code == 200:

使用get方法，我们得到一个requests对象，如果status_code == 200 说明请求成功。

接下来就是分析返回值了。

这里用到了一个extract_all函数，它可以遍历整个返回文档，返回一个列表，里面包含我们提供的两个参数的中间部分字符串。

extract_all('path="', '"', r.content),

获取到值之后，我们就要对值进行一下过滤了。因为我们只想获得中文的歌曲。

这里就用到了正则表达式：

RE_CN.match(name.decode('utf-8', 'ignore'))

它会对匹配中文字符串，如果是中文，我们就把它写到文件中。

正则表达式是程序员的基本功 , 请认真阅读 Python正则表达式操作指南 。

在写文件这一步，我们还做了一个处理

PREFIX = dirname(abspath(__file__))

其中 __file__ 是python的一个内置变量。表示的是当前运行的文件名。
通过 dirname(abspath(__file__))我们就可以把爬虫文件和将要下载的mp3文件都在同一个目录下。

刷新页面返回顶部

rainbowzc

引子

预习材料

课前准备

ulipad : python代码编辑器

easy_install ：python的包管理命令

requests : for Humans 的网络库

wget : 命令行的下载工具

firebug: 前端工程师的神器

爬虫是什么?

爬虫代码

代码分析

运行爬虫

课后练习

扩展阅读