基于scrapy-redis两种形式的分布式爬虫

 

阅读目录:

分布式爬虫概念:

  使用多台机器组成一个分布式的机群,在机群中运行同一组程序,进行联合数据的爬取。

原生scrapy框架是否可以自己实现分布式?

    - 不可以。原因有二。

      其一:因为多台机器上部署的scrapy会各自拥有各自的调度器,这样就使得多台机器无法分配start_urls列表中的url。(多台机器无法共享同一个调度器)

      其二:多台机器爬取到的数据无法通过同一个管道对数据进行统一的数据持久出存储。(多台机器无法共享同一个管道)

基于scrapy-redis组件的分布式爬虫

        - scrapy-redis组件中为我们封装好了可以被多台机器共享的调度器和管道,我们可以直接使用并实现分布式数据爬取。

   - 实现方式:

            1.基于该组件的RedisSpider类

            2.基于该组件的RedisCrawlSpider类

 3.分布式实现流程:上述两种不同方式的分布式实现流程是统一的

        - 3.1 下载scrapy-redis组件:pip install scrapy-redis

         - 3.2 redis配置文件的配置:

- 注释该行:bind 127.0.0.1,表示可以让其他ip访问redis

- 将yes该为no:protected-mode no,表示可以让其他ip操作redis

搭建流程:

- 搭建流程:
        - 创建工程
        - 爬虫文件
        - 修改爬虫文件:
            - 导报:from scrapy_redis.spiders import RedisCrawlSpider
            - 将当前爬虫类的父类进行修改RedisCrawlSpider
            - allowed_domains,start_url删除,添加一个新属性redis_key(调度器队列的名称)
            - 数据解析,将解析的数据封装到item中然后向管道提交
        - 配置文件的编写:
            - 指定管道:
                                ITEM_PIPELINES = {
                         'scrapy_redis.pipelines.RedisPipeline': 400
                        }
            - 指定调度器:
                # 增加了一个去重容器类的配置, 作用使用Redis的set集合来存储请求的指纹数据, 从而实现请求去重的持久化
                DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
                # 使用scrapy-redis组件自己的调度器
                SCHEDULER = "scrapy_redis.scheduler.Scheduler"
                # 配置调度器是否要持久化, 也就是当爬虫结束了, 要不要清空Redis中请求队列和去重指纹的set。如果是True, 就表示要持久化存储, 就不清空数据, 否则清空数据
                SCHEDULER_PERSIST = True
            - 指定具体的redis:
                REDIS_HOST = 'redis服务的ip地址'
                REDIS_PORT = 6379
                REDIS_ENCODING = ‘utf-8’
                REDIS_PARAMS = {‘password’:’123456’}
            - 开启redis服务(携带redis的配置文件:redis-server ./redis.windows.conf),和客户端:
                - 对redis的配置文件进行适当的配置:
                        - #bind 127.0.0.1
                        - protected-mode no
                 - 开启
             - 启动程序:scrapy runspider xxx.py
             - 向调度器队列中扔入一个起始的url(redis的客户端):lpush xxx www.xxx.com
                - xxx表示的就是redis_key的属性值

示例代码:

# -*- coding: utf-8 -*-
import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
from scrapy_redis.spiders import RedisCrawlSpider
from fbsPro.items import FbsproItem
class TestSpider(RedisCrawlSpider):
    name = 'test'
    # allowed_domains = ['www.xxx.com']
    # start_urls = ['http://www.xxx.com/']
    #调度器队列的名称
    redis_key = 'dongguan'
    rules = (
        Rule(LinkExtractor(allow=r'type=4&page=\d+'), callback='parse_item', follow=True),
    )

    def parse_item(self, response):
        a_list = response.xpath('//a[@class="news14"]')
        for a in a_list:
            item = FbsproItem()
            item['title']= a.xpath('./text()').extract_first()

            yield item
爬虫文件

items文件

# -*- coding: utf-8 -*-

# Define here the models for your scraped items
#
# See documentation in:
# https://doc.scrapy.org/en/latest/topics/items.html

import scrapy


class FbsproItem(scrapy.Item):
    # define the fields for your item here like:
    title = scrapy.Field()
    # pass
items.py

settings文件

ITEM_PIPELINES = {
   # 'fbsPro.pipelines.FbsproPipeline': 300,
    'scrapy_redis.pipelines.RedisPipeline': 400
}
# 增加了一个去重容器类的配置, 作用使用Redis的set集合来存储请求的指纹数据, 从而实现请求去重的持久化
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
# 使用scrapy-redis组件自己的调度器
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
# 配置调度器是否要持久化, 也就是当爬虫结束了, 要不要清空Redis中请求队列和去重指纹的set。如果是True, 就表示要持久化存储, 就不清空数据, 否则清空数据
SCHEDULER_PERSIST = True

REDIS_HOST = '192.168.11.154'
REDIS_PORT = 6379

 

 

 

 

posted @ 2019-05-11 23:40  小萍瓶盖儿  阅读(97)  评论(0编辑  收藏  举报