redis 入门及 Bloom Filter去重算法---1

1 Redis是什么？

--------------------------------------------------------------------------------

Redis 是完全开源免费的，是一个高性能的key-value数据库。

与其他 key - value 缓存产品--特点:

1支持数据的持久化,可以将内存中的数据保存在磁盘中，重启的时候可以再次加载进行使用。

2不仅仅支持简单的key-value类型的数据，同时还提供list，set，zset，hash等数据结构的存储。

3支持数据的备份，即master-slave模式的数据备份。

Redis 优势

性能极高
丰富的数据类型
原子 – Redis的所有操作都是原子性的，意思就是要么成功执行要么失败完全不执行。单个操作是原子性的。多个操作也支持事务，即原子性，通过MULTI和EXEC指令包起来。
丰富的特性

Redis支持五种数据类型：

string（字符串），hash（哈希），list（列表），set（集合）及zset(sorted set：有序集合)。

2 Redis怎么用？

2.1 开始使用redis

安装redis

下载驱动包jedis.jar

连接到 redis 服务

实例

import redis.clients.jedis.Jedis; public class RedisJava {

public static void main(String[] args) {

//连接本地的 Redis 服务

Jedis jedis = new Jedis("localhost");

System.out.println("连接成功");

//查看服务是否运行

System.out.println("服务正在运行: "+jedis.ping()); } }

编译以上 Java 程序，确保驱动包的路径是正确的。

Redis Java String(字符串) 实例

实例

import redis.clients.jedis.Jedis;

public class RedisStringJava {

public static void main(String[] args) {

//连接本地的 Redis 服务

Jedis jedis = new Jedis("localhost");

System.out.println("连接成功");

//设置 redis 字符串数据

jedis.set("runoobkey", "www.runoob.com");

// 获取存储的数据并输出

System.out.println("redis 存储的字符串为: "+ jedis.get("runoobkey")); } }

编译以上程序。

3 去重算法

应用领域

“去重”是日常工作中会经常用到的一项技能，在爬虫领域更是常用，并且规模一般都比较大

指标

去重需要考虑两个点：

去重的数据量

去重速度

为了保持较快的去重速度，一般选择在内存中进行去重。

去重有哪些方案？

1、数据量不大时，可以直接放在内存里面进行去重，例如python可以使用set()进行去重。

　　2、当去重数据需要持久化时可以使用redis的set数据结构。

　　3、当数据量再大一点时，可以用不同的加密算法先将长字符串压缩成 16/32/40 个字符，再使用上面两种方法去重；

　　4、当数据量达到亿（甚至十亿、百亿）数量级时，内存有限，必须用“位”来去重，才能够满足需求。Bloomfilter就是将去重对象映射到几个内存“位”，通过几个位的 0/1值来判断一个对象是否已经存在。

　　5、然而Bloomfilter运行在一台机器的内存上，不方便持久化（机器down掉就什么都没啦），也不方便分布式爬虫的统一去重。如果可以在Redis上申请内存进行Bloomfilter，以上两个问题就都能解决了。

4 Bloom Filter

4.1概念和原理

Bloom Filter是一种空间效率很高的随机数据结构，它利用位数组很简洁地表示一个集合，并能判断一个元素是否属于这个集合。Bloom Filter的这种高效是有一定代价的：在判断一个元素是否属于某个集合时，有可能会把不属于这个集合的元素误认为属于这个集合（false positive）。

初始状态时，Bloom Filter是一个包含m位的位数组，每一位都置为0。

为了表达S={x₁, x₂,…,x_n}这样一个n个元素的集合，Bloom Filter使用k个相互独立的哈希函数（Hash Function），它们分别将集合中的每个元素映射到{1,…,m}的范围中。对任意一个元素x，第i个哈希函数映射的位置h_i(x)就会被置为1（1≤i≤k）。注意，如果一个位置多次被置为1，那么只有第一次会起作用，后面几次将没有任何效果。在下图中，k=3，且有两个哈希函数选中同一个位置（从左边数第五位）。

在判断y是否属于这个集合时，我们对y应用k次哈希函数，如果所有h_i(y)的位置都是1（1≤i≤k），那么我们就认为y是集合中的元素，否则就认为y不是集合中的元素。下图中y₁就不是集合中的元素。y₂或者属于这个集合，或者刚好是一个false positive。

4.2 最优的哈希函数个数

既然Bloom Filter要靠多个哈希函数将集合映射到位数组中，那么应该选择几个哈希函数才能使元素查询时的错误率降到最低呢？

未完待续....

posted @ 2018-01-08 20:45 cuiz_book 阅读(542) 评论(0) 收藏举报

刷新页面返回顶部

enjoy