爬虫开发进阶--scrapy框架简介

一、什么是Scrapy框架？

Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架，非常出名，非常强悍。
所谓的框架就是一个已经被集成了各种功能（高性能异步下载，队列，分布式，解析，持久化等）的具有很强通用性的项目模板。

二、如何安装Scrapy？

　　Linux：

      pip3 install scrapy


　　Windows：

      a. pip3 install wheel

      b. 下载twisted http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted  # 注意系统版本和python版本

      c. 进入下载目录，执行 pip3 install Twisted‑17.1.0‑cp35‑cp35m‑win_amd64.whl  # 安装Twisted（一个高效异步模型）

      d. pip3 install pywin32 

      e. pip3 install scrapy

三、基础使用

1、创建项目：
    scrapy startproject first_project

2、创建爬虫文件：
    cd  first_project
    scrapy genspider mycrawl www.baidu.com

3、编写爬虫文件：
    略....

4、启动爬虫：
    scrapy crawl mycrawl   
    scrapy crawl mycrawl  --nolog   # 无日志，可以显示爬虫文件中print的数据

# -*- coding: utf-8 -*-
import scrapy


class MycrawlSpider(scrapy.Spider):
    name = 'mycrawl'
    allowed_domains = ['www.baidu.com']
    start_urls = ['http://www.baidu.com/']

    def parse(self, response):
        print(response.text)

简单打印

创建爬虫文件后的目录结构：

四、Scrapy框架核心组件：

1、引擎（Scrapy）

用来处理整个系统的数据流，触发事务，是框架的核心

2、爬虫（Spiders）

主要来工作的，从特定的网页中提取所需的信息，也可以提取出链接，让Scrapy根据连接继续抓取下一个页面

3、调度器（Scheduler）

用来接收引擎发过来的请求，压入队列，由它来决定下一个要抓取的网址是什么, 同时去除重复的网址

4、下载器（Downloader）

用于下载网页内容，并将网页内容返回给爬虫，数据存储在response中，Scrapy下载器是建立在twisted这个高效的异步模型上的

5、项目管道（Pipelines）

主要的功能是持久化实体、验证实体的有效性、清除不需要的信息。当页面被爬虫解析后，将被发送到项目管道，并经过几个特定的次序处理数据。

posted @ 2018-11-02 16:40 eailoo 阅读(155) 评论(0) 收藏举报

刷新页面返回顶部

eailoo

爬虫开发进阶--scrapy框架简介

一、什么是Scrapy框架？

二、如何安装Scrapy？

三、基础使用

四、Scrapy框架核心组件：

公告