摘要:
使用FileSystem类进行文件读写及查看文件信息 在这一节我们要深入了解Hadoop的FileSystem类——这是与与hadoop的文件系统交互的重要接口。虽然我们只是着重于HDFS的实现,但我们在编码时一般也要注意代码在FileSystem不同子类文件系统之间的可移植性。这是非常有用的,比如 阅读全文
posted @ 2016-12-16 21:11
thinker1017
阅读(5793)
评论(0)
推荐(0)
摘要:
B-树 1 .B-树定义 B-树是一种平衡的多路查找树,它在文件系统中很有用。 定义:一棵m 阶的B-树,或者为空树,或为满足下列特性的m 叉树:⑴树中每个结点至多有m 棵子树;⑵若根结点不是叶子结点,则至少有两棵子树; ⑶除根结点之外的所有非终端结点至少有[m/2] 棵子树;⑷所有的非终端结点中包 阅读全文
posted @ 2016-12-16 20:28
thinker1017
阅读(315)
评论(0)
推荐(0)
摘要:
spark读取kafka数据流提供了两种方式createDstream和createDirectStream。 两者区别如下: 1、KafkaUtils.createDstream 构造函数为KafkaUtils.createDstream(ssc, [zk], [consumer group id 阅读全文
posted @ 2016-12-16 20:22
thinker1017
阅读(7187)
评论(0)
推荐(0)
摘要:
第一:提高并行度 并行度就是Spark作业中,各个stage的task数量,也就代表了Spark作业的在各个阶段(stage)的并行度。 第一:提高并行度 并行度就是Spark作业中,各个stage的task数量,也就代表了Spark作业的在各个阶段(stage)的并行度。 如果不调节并行度,导致并 阅读全文
posted @ 2016-12-16 17:43
thinker1017
阅读(962)
评论(0)
推荐(0)
浙公网安备 33010602011771号