爬虫

爬虫

一、网络基础

客户端: web app 输入url 访问 服务器

服务器: 提供API 实际API即为url

url的演化:起初,只有ip的域名像是电话号码,要用户自己记住这个域名是干什么的,后来百度将域名和作用联系起来,记录在自己的数据库中,方便用户访问查询。

百度是怎么在网络上收集到这些信息的? 先按照关键字在本地的数据库搜索匹配,或在网络中搜索web中的title,description,content等内容,匹配到以后显示网页,收录在数据库,而且也访问这个网页中的所有链接的url,循环下去。

二、爬虫

1、爬虫三要素

    1)发送请求

    2)获取内容

    3)获取其他url

    循环这三个操作

三、爬虫的安装

1、由于异步回调机制基于Twisted,而现阶段只有python27可以完美支持。

所以现阶段爬虫基于python27

2、pip install scrapy

3、依赖模块

    windows平台需要依赖pywin32,请根据自己系统32/64位选择下载安装,https://sourceforge.net/projects/pywin32/

    进入

     选择对应版本python27.

    注意:可能还需要辅助安装 lxml-2.3.win-amd64-py2.7.exe

                                    lxml-2.3win32-py2.7.exe

    https://pypi.python.org/pypi/lxml/2.3/

    还是有问题可以 再安装 VCForPython27.msi

4、安装

    注意 安装pip补充

            1)安装setuptools.py

              https://bootstrap.pypa.io/ez_setup.py

              下载 ez_setup.py

              安装 python ez_setup.py

            2)安装pip

              https://pypi.python.org/packages/e7/a8 ...

              下载pip

              进入目录

              python setup.py install

            3)pip install xx

 

posted on 2017-01-20 08:29  lexn  阅读(129)  评论(0编辑  收藏  举报

导航