爬虫 - lexn - 博客园

爬虫

一、网络基础

客户端： web app 输入url 访问服务器

服务器：提供API 实际API即为url

url的演化：起初，只有ip的域名像是电话号码，要用户自己记住这个域名是干什么的，后来百度将域名和作用联系起来，记录在自己的数据库中，方便用户访问查询。

百度是怎么在网络上收集到这些信息的？先按照关键字在本地的数据库搜索匹配，或在网络中搜索web中的title，description，content等内容，匹配到以后显示网页，收录在数据库，而且也访问这个网页中的所有链接的url，循环下去。

二、爬虫

1、爬虫三要素

1）发送请求

2）获取内容

3）获取其他url

循环这三个操作

三、爬虫的安装

1、由于异步回调机制基于Twisted，而现阶段只有python27可以完美支持。

所以现阶段爬虫基于python27

2、pip install scrapy

3、依赖模块

windows平台需要依赖pywin32，请根据自己系统32/64位选择下载安装，https://sourceforge.net/projects/pywin32/

进入

选择对应版本python27.

注意：可能还需要辅助安装 lxml-2.3.win-amd64-py2.7.exe

lxml-2.3win32-py2.7.exe

还是有问题可以再安装 VCForPython27.msi

4、安装

注意安装pip补充

1)安装setuptools.py

https：//bootstrap.pypa.io/ez_setup.py

下载 ez_setup.py

安装 python ez_setup.py

2）安装pip

https：//pypi.python.org/packages/e7/a8 ...

下载pip

进入目录

python setup.py install

3）pip install xx

posted on 2017-01-20 08:29 lexn 阅读(135) 评论(0) 收藏举报

刷新页面返回顶部