爬虫之增量式爬虫

增量式爬虫
    概念:监测网站数据更新的情况，只会爬取网站最新更新出来的数据。
    分析:
        指定一个起始url
        基于CrawlSpider获取其他页码链接
        基子Rule将其他页码链接进行请求
        从每一个页码对应的页面源码中解析出每一个电影详情页的URL
        核心:检测电影详情页的url之前有没有请求过
            将爬取的电影详情页的url存储
                存储至redis的set数据结构，如果已经存在的url再往set中存，会返回0，如果是第一次存就返回1。
                如果是1，就对该url进行爬取，否则不进行爬取
        对详情页的url发起请求，然后解析出电影的名称和简介
        进行持久化存储

posted @ 2020-08-30 19:17 My帝王源阅读(75) 评论(0) 收藏举报

刷新页面返回顶部

爬虫之增量式爬虫

公告