初探网络爬虫:(Python+pip+lxml+BeautifulSoup+Requests)

Python Download Page:

https://www.python.org/downloads

pip是一个安装和管理Python包的工具,是easy_install的一个替换品 

https://pypi.python.org/pypi/pip#downloads

lxml是Python语言里和XML以及HTML工作的功能最丰富和最容易使用的库。lxml是为libxml2和libxslt库的一个Python化的绑定。它与众不同的地方是它兼顾了这些库的速度和功能完整性,以及纯Python API的简洁性,大部分与熟知的ElementTree API兼容但比之更优越。

http://lxml.de/installation.html

Beautiful Soup is a Python library for pulling data out of HTML and XML files. It works with your favorite parser to provide idiomatic ways of navigating, searching, and modifying the parse tree. It commonly saves programmers hours or days of work.

https://www.crummy.com/software/BeautifulSoup/bs4/doc/

requests是python的一个HTTP客户端库,跟urllib,urllib2类似

https://docs.python-requests.org/zh-CN/latest

 

首先我们在Windows中安装Python,由于Windows下的Python安装是在图形界面下进行操作的,此处不再过多阐述。

安装完成后可以看到Windows默认安装路径下已经多了一个名为Python27的文件夹(在这里我安装的是2.7版本)

image

安装完成后,打开CMD输入Python,提示找不到该命令;

为了使我们能够随时随地调用Python进行编程,还需要在系统中设置环境变量:

image

复制Python的安装路径到Path中,不要忘记和前面的路径用分号隔开

设置完成后,稍等一会,重新打开CMD,看到Python已经可以成功进行调用了

image

接下来开始安装pip,将下载好的文件解压

image

在CMD下进入该文件夹,运行命令 python setup.py install

20160504140745

等待安装成功后,同样在系统环境变量中加入pip路径,此处是 C:\Python27\Scripts

image

在CMD中运行测试OK

image

接下来我们开始安装第三方库,

首先是lxml:

打开下载页面,选择对应的lxml版本,注意文件后缀名为whl(lxml-3.4.4-cp27-none-win_amd64.whl

打开CMD,输入 pip install whell ,产生报错,于是尝试发现可以直接在线安装lxml,但还是报错。

20160504161121

看了报错信息 ReadTimeoutError,判断应该是网络问题,再次尝试安装,结果安装成功。

image

在线安装BeautifulSoup和Requests:

20160504162942

此时我们使用网络爬虫所需要的组件都已经准备完毕了

posted @ 2016-05-04 21:06  xzhk1993  阅读(478)  评论(0)    收藏  举报