摘要: 布隆过滤器 (Bloom Filter)是由Burton Howard Bloom于1970年提出,它是一种space efficient的概率型数据结构,用于判断一个元素是否在集合中。在垃圾邮件过滤的黑白名单方法、爬虫(Crawler)的网址判重模块中等等经常被用到。哈希表也能用于判断元素是否在集 阅读全文
posted @ 2018-08-28 17:04 DarrenChan陈驰 阅读(840) 评论(0) 推荐(0)
摘要: MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念"Map(映射)"和"Reduce(归约)" Bit-map空间压缩和快速排序去重 1. Bit-map的基本思想 32位机器上,对于一个整型数,比如int a=1 在内存中占32bit位,这是为了方便计算机的运算。但是 阅读全文
posted @ 2018-08-28 17:00 DarrenChan陈驰 阅读(1630) 评论(0) 推荐(0)
摘要: 深度优先搜索 深度优先搜索,我们以无向图为例。 图的深度优先搜索(Depth First Search),和树的先序遍历比较类似。 它的思想:假设初始状态是图中所有顶点均未被访问,则从某个顶点v出发,首先访问该顶点,然后依次从它的各个未被访问的邻接点出发深度优先搜索遍历图,直至图中所有和v有路径相通 阅读全文
posted @ 2018-08-28 14:02 DarrenChan陈驰 阅读(3351) 评论(0) 推荐(0)