2016 年 12月 16 日随笔档案 - thinker1017

2016年12月16日

摘要： 1. Bit Map算法简介来自于《编程珠玑》。所谓的Bit-map就是用一个bit位来标记某个元素对应的Value，而Key即是该元素。由于采用了Bit为单位来存储数据，因此在存储空间方面，可以大大节省。 2、 Bit Map的基本思想我们先来看一个具体的例子，假设我们要对0-7内的5个元素阅读全文

posted @ 2016-12-16 22:02 thinker1017 阅读(423) 评论(0) 推荐(0)

海量数据处理算法—Bloom Filter

摘要： 1. Bloom-Filter算法简介 Bloom-Filter，即布隆过滤器，1970年由Bloom中提出。它可以用于检索一个元素是否在一个集合中。 Bloom Filter（BF）是一种空间效率很高的随机数据结构，它利用位数组很简洁地表示一个集合，并能判断一个元素是否属于这个集合。它是一个判断元阅读全文

posted @ 2016-12-16 21:59 thinker1017 阅读(334) 评论(0) 推荐(0)

大数据计算：如何仅用1.5KB内存为十亿对象计数

摘要：在Clearspring，我们从事统计数据。统计一组不同元素且数量很大的数据集时，是一个挑战。为了更好地理解已经明确基数的大数据集的挑战，我们假设你的日志文件包含16个字符的ID,并且你想统计不同ID的数量.例如: 4f67bfc603106cb2 这16个字符需要用128位来表示。6万5千个ID 阅读全文

posted @ 2016-12-16 21:54 thinker1017 阅读(1273) 评论(0) 推荐(0)

B树、B-树、B+树、B*树

摘要： B树、B-树、B+树、B*树 B树即二叉搜索树： 1.所有非叶子结点至多拥有两个儿子（Left和Right）； 2.所有结点存储一个关键字； 3.非叶子结点的左指针指向小于其关键字的子树，右指针指向大于其关键字的子树；如： B树的搜索，从根结点开始，如果查询的关键字与结点的关键字相等，那么就命中阅读全文

posted @ 2016-12-16 21:52 thinker1017 阅读(168) 评论(0) 推荐(0)

使用FileSystem类进行文件读写及查看文件信息

摘要：使用FileSystem类进行文件读写及查看文件信息在这一节我们要深入了解Hadoop的FileSystem类——这是与与hadoop的文件系统交互的重要接口。虽然我们只是着重于HDFS的实现，但我们在编码时一般也要注意代码在FileSystem不同子类文件系统之间的可移植性。这是非常有用的，比如阅读全文

posted @ 2016-12-16 21:11 thinker1017 阅读(5795) 评论(0) 推荐(0)

B-树和B+树的应用：数据搜索和数据库索引

摘要： B-树 1 .B-树定义 B-树是一种平衡的多路查找树，它在文件系统中很有用。定义：一棵m 阶的B-树，或者为空树，或为满足下列特性的m 叉树：⑴树中每个结点至多有m 棵子树；⑵若根结点不是叶子结点，则至少有两棵子树； ⑶除根结点之外的所有非终端结点至少有[m/2] 棵子树；⑷所有的非终端结点中包阅读全文

posted @ 2016-12-16 20:28 thinker1017 阅读(319) 评论(0) 推荐(0)

spark 的createDstream和createDirectStream区别

摘要： spark读取kafka数据流提供了两种方式createDstream和createDirectStream。两者区别如下： 1、KafkaUtils.createDstream 构造函数为KafkaUtils.createDstream(ssc, [zk], [consumer group id 阅读全文

posted @ 2016-12-16 20:22 thinker1017 阅读(7189) 评论(0) 推荐(0)

spark性能调优

摘要：第一：提高并行度并行度就是Spark作业中，各个stage的task数量，也就代表了Spark作业的在各个阶段（stage）的并行度。第一：提高并行度并行度就是Spark作业中，各个stage的task数量，也就代表了Spark作业的在各个阶段（stage）的并行度。如果不调节并行度，导致并阅读全文

posted @ 2016-12-16 17:43 thinker1017 阅读(964) 评论(0) 推荐(0)

公告