摘要: bitmap去重与布隆过滤器原理 1. bitmap去重 通过一个比特位来存一个地址,占用内存很小 2. 布隆过滤器 BloomFilter 会开辟一个m位的bitArray(位数组),开始所有数据全部置 0 。当一个元素过来时,能过多个哈希函数(h1,h2,h3....)计算不同的在哈希值,并通过 阅读全文
posted @ 2020-04-13 09:03 Hank·Paul 阅读(1270) 评论(0) 推荐(0) 编辑
摘要: MongoDB基础知识 MongoDB是一款强大、灵活、且易于扩展的通用型数据库 1、文档是MongoDB的核心概念。文档就是键值对的一个有序集{'msg':'hello','foo':3}。类似于python中的有序字典。 需要注意的是: #1、文档中的键/值对是有序的。 #2、文档中的值不仅可以 阅读全文
posted @ 2020-04-13 02:55 Hank·Paul 阅读(203) 评论(0) 推荐(0) 编辑
摘要: 分布式爬虫 安装: pip3 install scrapy-redis 1. 修改原来的爬虫继承和start_urls from scrapy_redis.spiders import RedisSpider class CnblogsSpider(RedisSpider): #start_urls 阅读全文
posted @ 2020-04-13 02:28 Hank·Paul 阅读(189) 评论(0) 推荐(0) 编辑
摘要: scrapy 请求传参 def parse(self, response): div_list = response.css('div.post_item') for div in div_list: item = ScrItem() dec = div.css('p.post_item_summa 阅读全文
posted @ 2020-04-13 02:25 Hank·Paul 阅读(238) 评论(0) 推荐(0) 编辑