2019 年 10月 24 日随笔档案 - 一颗桃子t

2019年10月24日

摘要：概述概念：监测核心技术：去重基于 redis 的一个去重适合使用增量式的网站：基于深度爬取的对爬取过的页面url进行一个记录（记录表）基于非深度爬取的记录表：爬取过的数据对应的数据指纹数据指纹：原始数据的一组唯一标识数据 –> 数据指纹 –> 库中查询 hashlib 所谓的记录阅读全文

posted @ 2019-10-24 21:40 一颗桃子t 阅读(464) 评论(0) 推荐(0)

Scrapy+redis实现分布式爬虫

摘要：概述什么是分布式爬虫需要搭建一个由n台电脑组成的机群，然后在每一台电脑中执行同一组程序，让其对同一网络资源进行联合且分布的数据爬取。原生Scrapy无法实现分布式的原因原生Scrapy中调度器不可以被共享每一台机器都拥有一个调度器，如果一个机群共享一个调度器就可以了。原生Scrapy中管阅读全文

posted @ 2019-10-24 20:17 一颗桃子t 阅读(1411) 评论(0) 推荐(0)

一颗桃子t

公告