scrapy介绍

scrapy

scrapy介绍

# requsets  bs4 selenium  模块
 
# 框架 ：django ，scrapy--->专门做爬虫的框架，爬虫界的django，大而全，爬虫有的东西，它都自带

安装

# 安装 （win看人品，linux，mac一点问题没有）
	-pip3.8 install  scrapy
    
    -装不上，基本上是因为twisted装不了，单独装
        1、pip3 install wheel #安装后，便支持通过wheel文件安装软件，wheel文件官网：https://www.lfd.uci.edu/~gohlke/pythonlibs
        3、pip3 install lxml
        4、pip3 install pyopenssl
        5、下载并安装pywin32：https://sourceforge.net/projects/pywin32/files/pywin32/
        6、下载twisted的wheel文件：http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted
        7、执行pip3 install 下载目录\Twisted-17.9.0-cp36-cp36m-win_amd64.whl
        8、pip3 install scrapy

架构分析

    爬虫：spiders(自己定义的，可以有很多)，定义爬取的地址，解析规则
    引擎：engine ---》控制整个框架数据的流动，大总管
    调度器：scheduler---》要爬取的 requests对象，放在里面，排队
    下载中间件：DownloaderMiddleware---》处理请求对象，处理响应对象
    下载器：Downloader ----》负责真正的下载，效率很高，基于twisted的高并发的模型之上
    
    爬虫中间件：spiderMiddleware----》处于engine和爬虫直接的(用的少)
    管道：piplines---》负责存储数据

pycharm打开scrapy项目

# 创建出scrapy项目--下载scrapy会携带可执行文件
    scrapy startproject firstscrapy  # 创建项目
    scrapy genspider 名字 网址        # 创建爬虫   等同于 创建app
    
    eg:scrapy genspider crewdel https://www.cnblogs.com/
    # pycharm打开

scrapy架构介绍

# 引擎(EGINE)
引擎负责控制系统所有组件之间的数据流，并在某些动作发生时触发事件。

# 调度器(SCHEDULER)
用来接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回. 可以想像成一个URL的优先级队列, 由它来决定下一个要抓取的网址是什么, 同时去除重复的网址

# 下载器(DOWLOADER)
用于下载网页内容, 并将网页内容返回给EGINE，下载器是建立在twisted这个高效的异步模型上的

# 爬虫(SPIDERS)--->在这里写代码
SPIDERS是开发人员自定义的类，用来解析responses，并且提取items，或者发送新的请求

# 项目管道(ITEM PIPLINES)
在items被提取后负责处理它们，主要包括清理、验证、持久化（比如存到数据库）等操作

# 下载器中间件(Downloader Middlewares)

位于Scrapy引擎和下载器之间，主要用来处理从EGINE传到DOWLOADER的请求request，已经从DOWNLOADER传到EGINE的响应response，你可用该中间件做以下几件事：设置请求头，设置cookie，使用代理，集成selenium

# 爬虫中间件(Spider Middlewares)
位于EGINE和SPIDERS之间，主要工作是处理SPIDERS的输入（即responses）和输出（即requests）

scapy的一些命令

# 安装完成后，会有scrapy的可执行文件

# 创建项目
     scrapy startproject 项目名字  # 跟创建django一样，pycharm能直接创建django
    
    
# 创建爬虫
    scrapy genspider 名字 域名   # 创建爬虫  django的创建app
    
# pycharm打开scrapy的项目


# 运行爬虫
	scrapy crawl 爬虫名字
    
# 想点击绿色箭头运行爬虫
    新建一个run.py,写入，以后右键执行即可
    from scrapy.cmdline import execute
    execute(['scrapy','crawl','cnblogs','--nolog'])
    
    
    
# 补充：爬虫协议
 http://www.cnblogs.com/robots.txt

scrapy项目目录结构

firstscrapy 						# 项目名
    firstscrapy            # 文件夹名字，核心代码，都在这里面
    	spiders            # 爬虫的文件，里面有所有的爬虫
        	__init__.py
        	baidu.py      # 百度爬虫 
        	cnblogs.py    #cnblogs爬虫
        items.py # 有很多模型类---》以后存储的数据，都做成模型类的对象，等同于django的models.py
        middlewares.py # 中间件：爬虫中间件，下载中间件都写在这里面
        pipelines.py   #项目管道---》以后写持久化，都在这里面写
        run.py         # 自己写的，运行爬虫
        settings.py    # 配置文件  django的配置文件
   scrapy.cfg          # 项目上线用的，不需要关注

scrapy解析数据

1 response对象有css方法和xpath方法
	-css中写css选择器
    -xpath中写xpath选择
2 重点1：
	-xpath取文本内容
	'.//a[contains(@class,"link-title")]/text()'
    -xpath取属性
    './/a[contains(@class,"link-title")]/@href'
    -css取文本
    'a.link-title::text'
    -css取属性
    'img.image-scale::attr(src)'
3 重点2：
	.extract_first()  取一个
    .extract()        取所有

解析cnblogs

 # def parse(self, response):
    #     # 解析数据 css解析
    #     article_list = response.css('article.post-item')
    #     for article in article_list:
    #         title = article.css('div.post-item-text>a::text').extract_first()
    #         author_img = article.css('div.post-item-text img::attr(src)').extract_first()
    #         author_name = article.css('footer span::text').extract_first()
    #         desc_old = article.css('p.post-item-summary::text').extract()
    #         desc = desc_old[0].replace('\n', '').replace(' ', '')
    #         if not desc:
    #             desc = desc_old[1].replace('\n', '').replace(' ', '')
    #         url=article.css('div.post-item-text>a::attr(href)').extract_first()
    #         # 文章真正的内容，没拿到，它不在这个页面中，它在下一个页面中
    #         print(title)
    #         print(author_img)
    #         print(author_name)
    #         print(desc)
    #         print(url)

    def parse(self, response):
        # 解析数据 xpath解析
        article_list = response.xpath('//*[@id="post_list"]/article')
        # article_list = response.xpath('//article[contains(@class,"post-item")]')
        for article in article_list:
            title = article.xpath('.//div/a/text()').extract_first()
            author_img = article.xpath('.//div//img/@src').extract_first()
            author_name = article.xpath('.//footer//span/text()').extract_first()
            desc_old = article.xpath('.//p/text()').extract()
            desc = desc_old[0].replace('\n', '').replace(' ', '')
            if not desc:
                desc = desc_old[1].replace('\n', '').replace(' ', '')
            url = article.xpath('.//div/a/@href').extract_first()
            # 文章真正的内容，没拿到，它不在这个页面中，它在下一个页面中
            print(title)
            print(author_img)
            print(author_name)
            print(desc)
            print(url)

settings相关配置，提高爬虫效率

scrapy 项目有项目自己的配置文件，还有内置的

1. 基础配置

#1 了解
BOT_NAME = "firstscrapy"  #项目名字，整个爬虫名字
#2 爬虫存放位置    了解
SPIDER_MODULES = ["firstscrapy.spiders"]
NEWSPIDER_MODULE = "firstscrapy.spiders"

#3  记住 是否遵循爬虫协议，一般都设为False
ROBOTSTXT_OBEY = False  
# 4 记住
USER_AGENT = "firstscrapy (+http://www.yourdomain.com)"
#5  记住  日志级别
LOG_LEVEL='ERROR'

#6   记住 DEFAULT_REQUEST_HEADERS 默认请求头
DEFAULT_REQUEST_HEADERS = {
   'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
   'Accept-Language': 'en',
}

#7 记住 后面学  SPIDER_MIDDLEWARES 爬虫中间件
SPIDER_MIDDLEWARES = {
    'cnblogs.middlewares.CnblogsSpiderMiddleware': 543,
}
#8 后面学 DOWNLOADER_MIDDLEWARES  下载中间件
DOWNLOADER_MIDDLEWARES = {
    'cnblogs.middlewares.CnblogsDownloaderMiddleware': 543,
}

#9 后面学 ITEM_PIPELINES 持久化配置
ITEM_PIPELINES = {
    'cnblogs.pipelines.CnblogsPipeline': 300,
}

2. 增加爬虫的爬取效率

#1 增加并发：默认16
默认scrapy开启的并发线程为32个，可以适当进行增加。在settings配置文件中修改
CONCURRENT_REQUESTS = 100
值为100,并发设置成了为100。
#2 降低日志级别：
在运行scrapy时，会有大量日志信息的输出，为了减少CPU的使用率。可以设置log输出信息为INFO或者ERROR即可。在配置文件中编写：
LOG_LEVEL = 'INFO'
# 3 禁止cookie：
如果不是真的需要cookie，则在scrapy爬取数据时可以禁止cookie从而减少CPU的使用率，提升爬取效率。在配置文件中编写：
COOKIES_ENABLED = False
# 4 禁止重试：
对失败的HTTP进行重新请求（重试）会减慢爬取速度，因此可以禁止重试。在配置文件中编写：
RETRY_ENABLED = False
# 5 减少下载超时：
如果对一个非常慢的链接进行爬取，减少下载超时可以能让卡住的链接快速被放弃，从而提升效率。在配置文件中进行编写：
DOWNLOAD_TIMEOUT = 10 超时时间为10s

持久化方案

# 方式一：（parse必须有return值，必须是列表套字典形式--->使用命令，可以保存到json格式中，csv中。。。）
scrapy crawl cnblogs -o cnbogs.json

# 方式二：我们用的，使用pipline存储---》可以存到多个位置
	-第一步：在item.py中写一个类
        class FirstscrapyItem(scrapy.Item):
            title = scrapy.Field()
            author_img = scrapy.Field()
            author_name = scrapy.Field()
            desc = scrapy.Field()
            url = scrapy.Field()
            # 博客文章内容，但是暂时没有
            content = scrapy.Field()
            
    -第二步：在pipline.py中写代码，写一个类：open_spide,close_spider，process_item
    	-open_spide：开启爬虫会触发
    	-close_spider：爬完会触发
        -process_ite:每次要保存一个对象会触发
        class FirstscrapyFilePipeline:
            def open_spider(self, spider):
                print('我开了')
                self.f=open('a.txt','w',encoding='utf-8')
            def close_spider(self, spider):
                print('我关了')
                self.f.close()
            # 这个很重要
            def process_item(self, item, spider):
                self.f.write(item['title']+'\n')
                return item
    -第三步：配置文件配置
    	ITEM_PIPELINES = {
           "firstscrapy.pipelines.FirstscrapyFilePipeline": 300,  # 数字越小，优先级越高
        }
        
    -第四步：在解析方法parse中yield item对象

全站爬取cnblogs文章

1.request和response对象传递参数

# Request创建：在parse中，for循环中，创建Request对象时，传入meta
	yield Request(url=url, callback=self.detail_parse,meta={'item':item})
    
# Response对象：detail_parse中，通过response取出meta取出item，把文章详情写入
	yield item

2.解析下一页并继续爬取

import scrapy
from bs4 import BeautifulSoup
from firstscrapy.items import FirstscrapyItem
from scrapy.http.request import Request

class CnblogsSpider(scrapy.Spider):
   name = "cnblogs"
   allowed_domains = ["www.cnblogs.com"]
   start_urls = ["http://www.cnblogs.com/"]

   # 解析出下一页地址，继续爬取
   def parse(self, response):
       article_list = response.xpath('//*[@id="post_list"]/article')
       # article_list = response.xpath('//article[contains(@class,"post-item")]')
       # l=[]
       for article in article_list:
           item = FirstscrapyItem()
           title = article.xpath('.//div/a/text()').extract_first()
           item['title'] = title
           author_img = article.xpath('.//div//img/@src').extract_first()
           item['author_img'] = author_img
           author_name = article.xpath('.//footer//span/text()').extract_first()
           item['author_name'] = author_name
           desc_old = article.xpath('.//p/text()').extract()
           desc = desc_old[0].replace('\n', '').replace(' ', '')
           if not desc:
               desc = desc_old[1].replace('\n', '').replace(' ', '')
           item['desc'] = desc
           url = article.xpath('.//div/a/@href').extract_first()
           item['url'] = url
           # print(title)
           # yield item对象 不完整，缺文章的content，而文章的content在下一个页面中,而此处要yield一个Request对象
           # yield item
           yield Request(url=url,callback=self.parser_detail,meta={'item':item}) # 爬完后执行的解析方法


       next='https://www.cnblogs.com'+response.css('div.pager>a:last-child::attr(href)').extract_first()
       print(next) # 继续爬取
       yield Request(url=next,callback=self.parse)



   # 解析详情的方法
   def parser_detail(self,response):
       # print(response.status)
       # 解析出文章内容
       content=response.css('#cnblogs_post_body').extract_first()
       # print(str(content))
       # 如何放到item中
       item=response.meta.get('item')
       if content:
           item['content']=content
       else:
           item['content'] = '没查到'
       yield item

爬取的数据，存到mysql中

scrapy解析返回数据格式的两种方式

# 解析返回的数据
"""方式一：使用bs4，解析 """
# print(response.text)
# soup=BeautifulSoup(response.text,'lxml')
# print(soup.text)

""" 方式二：scrapy自带的解析"""
# response.css()
# response.xpath()


代码展示
1.""" 解析数据 css解析"""
    def parse(self, response):
        article_list=response.css('article.post-item')
        for article in article_list:
            title=article.css('div.post-item-text>a::text').extract_first()
            author_img=article.css('div.post-item-text>p>a>img::attr(src)').extract_first()
            author_name=article.css('footer.post-item-foot>a>span::text').extract_first()
            desc_old=article.css('p.post-item-summary::text').extract()
            desc = desc_old[0].replace('\n', '').replace(' ', '')
            if not desc:
                desc = desc_old[1].replace('\n', '').replace(' ', '')
            url = article.css('div.post-item-text>a::attr(href)').extract_first()
            print(title)
            print(author_img)
            print(author_name)
            print(desc)
            print(url)
            
  2. 解析数据 xpath解析         
    def parse(self, response):
        """
        //任意路径下   /仅邻路径下 div下的a标签  .是当前路径下
        """
        article_list = response.xpath('//*[@id="post_list"]/article')
        # article_list = response.xpath('//article[contains(@class,"post-item")]')
        for article in article_list:
            title = article.xpath('.//div/a/text()').extract_first()
            author_img = article.xpath('.//div//img/@src').extract_first()
            author_name = article.xpath('.//footer//span/text()').extract_first()
            desc_old = article.xpath('.//p/text()').extract()
            desc = desc_old[0].replace('\n', '').replace(' ', '')
            if not desc:
                desc = desc_old[1].replace('\n', '').replace(' ', '')
            url = article.xpath('.//div/a/@href').extract_first()
            # 文章真正的内容，没拿到，它不在这个页面中，它在下一个页面中
            print(title)
            print(author_img)
            print(author_name)
            print(desc)
            print(url)

爬取的数据存到mysql中

# 存到mysql中
class FirstscrapyMySqlPipeline:
    def open_spider(self, spider):
        print('我开了')
        self.conn = pymysql.connect(
            user='root',
            password="",
            host='127.0.0.1',
            database='cnblogs',
            port=3306)
        self.cursor = self.conn.cursor()

    def close_spider(self, spider):
        print('我关了')

        self.cursor.close()
        self.conn.close()

    # 这个很重要
    def process_item(self, item, spider):
        sql = '''INSERT INTO aritcle (title,author_img,author_name,`desc`,url,content) VALUES(%s,%s,%s,%s,%s,%s);'''
        print(len(item['content']))  # 可能会超长
        # print('-----')
        self.cursor.execute(sql,
                            args=[item['title'], item['author_img'], item['author_name'], item['desc'], item['url'],item['content']
                                  ])
        self.conn.commit()
        return item

爬虫和下载中间件

爬虫中间件：处于爬虫和引擎之间的

下载中间件：处于引擎和下载器之间的

主要用的是下载中间件，爬虫中间件，了解即可,在中间件里面：进来的时候是个'Request'对象,出去的时候是个'Response'对象

# 爬虫中间件
class FirstscrapySpiderMiddleware:
	# 进入到爬虫时，触发它
    def process_spider_input(self, response, spider):
        return None
	# 出爬虫时，触发它
    def process_spider_output(self, response, result, spider):
        for i in result:
            yield i
	#出异常时，触发它
    def process_spider_exception(self, response, exception, spider):
        pass
	# 第一次爬取，
    def process_start_requests(self, start_requests, spider):
        for r in start_requests:
            yield r

    # 爬虫开启会触发
    def spider_opened(self, spider):
        spider.logger.info("Spider opened: %s" % spider.name)
        
        
 # 下载中间件

class FirstscrapyDownloaderMiddleware:
	# 请求来了，从引擎进入到下载器会触发，这里有request对象
    def process_request(self, request, spider):
        # 必须返回以下情况:
        # - return None:继续下一个中间件
        # - return a Response object：结束掉，这个请求就不爬取了，回到引擎中
        # - return a Request object ：把请求对象给引擎，引擎把它再次放到调度器中，等待下一次调度
        # - raise IgnoreRequest: 就会执行process_exception() 
        return None

    def process_response(self, request, response, spider):
        # 请求下载完成，回来经过：request请求对象, response响应对象
        # - return a Response object：继续走下一个中间件的process_response
        # - return a Request object ：把请求对象给引擎，引擎把它再次放到调度器中，等待下一次调度
        # - raise IgnoreRequest：就会执行process_exception() 
        return response

    def process_exception(self, request, exception, spider):
     	中间件中抛异常会走到
        pass

 # 下载中间件的process_request，因为有request对象，就是要爬取的对象
	-修改请求头
    -加cookie
    -加代理
    --------
    -集成selenium

加代理，cookies,header,加入selenium

1 加入代理

# 第一步：
	-在下载中间件写process_request方法
   	 def get_proxy(self):
        import requests
        res = requests.get('http://127.0.0.1:5010/get/').json()
        if res.get('https'):
            return 'https://' + res.get('proxy')
        else:
            return 'http://' + res.get('proxy')
       def process_request(self, request, spider):
            request.meta['proxy'] = self.get_proxy()
            return None
        
# 第二步：代理可能不能用，会触发process_exception，在里面写
    def process_exception(self, request, exception, spider):
        print('-----',request.url)  # 这个地址没有爬
        return request

2 加入cookie，修改请求头，随机生成UserAgent

# 加cookie
    def process_request(self, request, spider):
        print(request.cookies)
        request.cookies['name']='kimi'
        return None
    
 # 修改请求头
    def process_request(self, request, spider):
        print(request.headers)
        request.headers['referer'] = 'http://www.lagou.com'
        return None
    
# 动态生成User-agent使用
    def process_request(self, request, spider):
        # fake_useragent模块
        from fake_useragent import UserAgent
        ua = UserAgent()
        request.headers['User-Agent']=str(ua.random)
        print(request.headers)

        return None

3集成selenium

# 集成selenium 因为有的页面，是执行完js后才渲染完，必须使用selenium去爬取数据才完整

# 第一步：在爬虫类中写
from selenium import webdriver
class CnblogsSpider(scrapy.Spider):
    bro = webdriver.Chrome(executable_path='./chromedriver.exe')
    bro.implicitly_wait(10)
    def close(spider, reason):
        spider.bro.close() #浏览器关掉
        
# 第二步：在中间件中
    def process_request(self, request, spider):
        # 爬取下一页这种地址---》用selenium，但是文章详情，就用原来的
        if 'sitehome/p' in request.url:
            spider.bro.get(request.url)
            from scrapy.http.response.html import HtmlResponse
            response = HtmlResponse(url=request.url, body=bytes(spider.bro.page_source, encoding='utf-8'))
            return response
        else:
            return None

去重规则源码分析(布隆过滤去)

# 调度器可以去重，研究一下，如何去重的
# 要爬取的Request对象，在进入到scheduler调度器排队之前，先执行enqueue_request，它如果return False，这个Request就丢弃掉，不爬了----》如何判断这个Request要不要丢弃掉，执行了self.df.request_seen(request)，它来决定的-----》RFPDupeFilter类中的方法----》request_seen---》会返回True或False----》如果这个request在集合中，说明爬过了，就return True，如果不在集合中，就加入到集合中，然后返回False

# 调度器源码
from scrapy.core.scheduler import Scheduler
	# 这个方法如果return True表示这个request要爬取，如果return False表示这个网址就不爬了(已经爬过了)
    def enqueue_request(self, request: Request) -> bool:
        # request当次要爬取的地址对象
        if self.df.request_seen(request):
            # 有的请情况，在爬虫中解析出来的网址，不想爬了，就就可以指定
            # yield Request(url=url, callback=self.detail_parse, meta={'item': item},dont_filter=True)
            # 如果符合这个条件，表示这个网址已经爬过了 
            return False
        return True
    
    
    
# self.df 去重类 是去重类的对象 RFPDupeFilter
    -在配置文件中如果配置了：DUPEFILTER_CLASS = 'scrapy.dupefilters.RFPDupeFilter'表示，使用它作为去重类，按照它的规则做去重
    -RFPDupeFilter的request_seen
       def request_seen(self, request: Request) -> bool:
        # request_fingerprint 生成指纹
        fp = self.request_fingerprint(request) #request当次要爬取的地址对象
        #判断 fp 在不在集合中，如果在，return True
        if fp in self.fingerprints:
            return True
        #如果不在，加入到集合，return False
        self.fingerprints.add(fp)
        return False

    
# 传进来是个request对象，生成的是指纹
	-爬取的网址：https://www.cnblogs.com/teach/p/17238610.html?name=lqz&age=19
    -和        https://www.cnblogs.com/teach/p/17238610.html?name=lqz&age=19
    -它俩是一样的，返回的数据都是一样的，就应该是一条url，就只会爬取一次
    -所以 request_fingerprint  就是来把它们做成一样的(核心原理是把查询条件排序，再拼接到后面)
    
   
    -生成指纹，指纹是什么？ 生成的指纹放到集合中去重
    	-www.cnblogs.com?name=lqz&age=19
        -www.cnblogs.com?age=19&name=lqz
        -上面的两种地址生成的指纹是一样的
        # 测试指纹
        from scrapy.utils.request import RequestFingerprinter
        from scrapy import Request

        fingerprinter = RequestFingerprinter()
        request1 = Request(url='http://www.cnblogs.com?name=lqz&age=20')
        request2 = Request(url='http://www.cnblogs.com?age=20&name=lqz')

        res1 = fingerprinter.fingerprint(request1).hex()
        res2 = fingerprinter.fingerprint(request2).hex()
        print(res1)
        print(res2)

总结：

# 总结：scrapy的去重规则
	-根据配置的去重类RFPDupeFilter的request_seen方法，如果返回True，就不爬了，如果返回False就爬
    -后期咱们可以使用自己定义的去重类，实现去重
    
    
 # 更小内存实现去重
	-如果是集合：存的数据库越多，占内存空间越大，如果数据量特别大，可以使用布隆过滤器实现去重

 # 布隆过滤器：https://zhuanlan.zhihu.com/p/94668361
	#bloomfilter：是一个通过多哈希函数映射到一张表的数据结构，能够快速的判断一个元素在一个集合内是否存在，具有很好的空间和时间效率。（典型例子，爬虫url去重）

	# 原理： BloomFilter 会开辟一个m位的bitArray(位数组)，开始所有数据全部置 0 。当一个元素（www.baidu.com）过来时，能过多个哈希函数（h1,h2,h3....）计算不同的在哈希值，并通过哈希值找到对应的bitArray下标处，将里面的值 0 置为 1 。

    
    
    
   
# Python中使用布隆过滤器
# 测试布隆过滤器
# 可以自动扩容指定错误率，底层数组如果大于了错误率会自动扩容
# from pybloom_live import ScalableBloomFilter
# bloom = ScalableBloomFilter(initial_capacity=100, error_rate=0.001, mode=ScalableBloomFilter.LARGE_SET_GROWTH)
# url = "www.cnblogs.com"
# url2 = "www.liuqingzheng.top"
# bloom.add(url)
# bloom.add(url2)
# print(url in bloom)
# print(url2 in bloom)

from pybloom_live import BloomFilter

bf = BloomFilter(capacity=10)
url = 'www.baidu.com'
bf.add(url)
bf.add('aaaa')
bf.add('ggg')
bf.add('deww')
bf.add('aerqaaa')
bf.add('ae2rqaaa')
bf.add('aerweqaaa')
bf.add('aerwewqaaa')
bf.add('aerereweqaaa')
bf.add('we')


print(url in bf)
print("wa" in bf)



# 如果有去重的情况，就可以使用集合---》但是集合占的内存空间大，如果到了亿级别的数据量，想一种更小内存占用，而去重的方案----》布隆过滤器
# 布隆过滤器：通过不同的hash函数，加底层数组实现的极小内存去重
# python中如何使用：pybloom_live  
	-指定错误率
    -指定大小

    
    
# 使用redis实现布隆过滤器
	-编译redis---》把第三方扩展布隆过滤器编译进去，才有这个功能
	-https://zhuanlan.zhihu.com/p/94668736
# 重写scrapy的过滤类

scrapy-redis实现分布式爬虫

# 什么是分布式爬虫
	-集群：一个项目，在多个机器上部署，每个机器完成完整的功能，称之为集群
	-原来使用一台机器爬取cnblogs整站
    -现在想使用3台机器爬取cnblogs整站
    	- 每台机器爬取数据是不一样的
        - 最终组装成完整的数据
# 如果变成分布式，面临的问题
	-1 去重集合，我们要使用同一个----》redis集合
    -2 多台机器使用同一个调度器：Scheduler，排队爬取，使用同一个队列
    
    
# scrapy-redis 已经解决这个问题了，我只需要在我们单机基础上，改动一点，就变成了分布式爬虫
# 使用步骤
	第一步：安装scrapy-redis  ---》pip3 install scrapy-redis
    第二步：改造爬虫类
    from scrapy_redis.spiders import RedisSpider
    class CnblogSpider(RedisSpider):
        name = 'cnblog_redis'
        allowed_domains = ['cnblogs.com']
        # 写一个key：redis列表的key，起始爬取的地址
        redis_key = 'myspider:start_urls'
        
    第三步：配置文件配置
    # 分布式爬虫配置
    # 去重规则使用redis
    REDIS_HOST = 'localhost'                            # 主机名
    REDIS_PORT = 6379                                   # 端口
    DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter" #看了源码
    SCHEDULER = "scrapy_redis.scheduler.Scheduler"   # 先进先出：队列，先进后出：栈
    # 持久化：文件，mysql，redis
    ITEM_PIPELINES = {
       'cnblogs.pipelines.CnblogsFilePipeline': 300,
       'cnblogs.pipelines.CnblogsMysqlPipeline': 100,
       'scrapy_redis.pipelines.RedisPipeline': 400,  #简单看
    }
    第四步：在多台机器上启动scrapy项目，在一台机器起了多个scrapy爬虫进程，就相当于多台机器
    
    第五步：把起始爬取的地址放到redis的列表中
    lpush mycrawler:start_urls http://www.cnblogs.com/

拓展

# 原来的去重规则
class RFPDupeFilter(BaseDupeFilter):
   def request_seen(self, request):
        # request_fingerprint 生成指纹
        fp = self.request_fingerprint(request) #request当次要爬取的地址对象
        #判断 fp 在不在集合中，如果在，return True
        if fp in self.fingerprints:
            return True
        #如果不在，加入到集合，return False
        self.fingerprints.add(fp)
        return False


# scrapy-redis的去重规则
class RFPDupeFilter(BaseDupeFilter):
    def request_seen(self, request):
        fp = self.request_fingerprint(request)
        # This returns the number of values added, zero if already exists.
        added = self.server.sadd(self.key, fp)
        return added == 0
    
   
    
# 持久化
class RedisPipeline(object):

    def process_item(self, item, spider):
        return deferToThread(self._process_item, item, spider)
    def _process_item(self, item, spider):
        key = self.item_key(item, spider)
        data = self.serialize(item)
        self.server.rpush(key, data)
        return item

作业

1.持久化忘记前三期密码
2.用scrapy框架把cnblgos整站爬取，存到数据库中

posted @ 2023-03-20 16:36 魔女宅急便阅读(32) 评论(0) 收藏举报

刷新页面返回顶部

kimi

scrapy介绍

scrapy

scrapy介绍

scrapy架构介绍

scapy的一些命令

scrapy项目目录结构

scrapy解析数据

解析cnblogs

settings相关配置，提高爬虫效率

1. 基础配置

2. 增加爬虫的爬取效率

持久化方案

全站爬取cnblogs文章

1.request和response对象传递参数

2.解析下一页并继续爬取

爬取的数据，存到mysql中

爬虫和下载中间件

加代理，cookies,header,加入selenium

1 加入代理

2 加入cookie，修改请求头，随机生成UserAgent

3集成selenium

去重规则源码分析(布隆过滤去)

scrapy-redis实现分布式爬虫

拓展

作业

公告