摘要: 使用FileSystem类进行文件读写及查看文件信息 在这一节我们要深入了解Hadoop的FileSystem类——这是与与hadoop的文件系统交互的重要接口。虽然我们只是着重于HDFS的实现,但我们在编码时一般也要注意代码在FileSystem不同子类文件系统之间的可移植性。这是非常有用的,比如 阅读全文
posted @ 2016-12-16 21:11 thinker1017 阅读(5793) 评论(0) 推荐(0)
摘要: B-树 1 .B-树定义 B-树是一种平衡的多路查找树,它在文件系统中很有用。 定义:一棵m 阶的B-树,或者为空树,或为满足下列特性的m 叉树:⑴树中每个结点至多有m 棵子树;⑵若根结点不是叶子结点,则至少有两棵子树; ⑶除根结点之外的所有非终端结点至少有[m/2] 棵子树;⑷所有的非终端结点中包 阅读全文
posted @ 2016-12-16 20:28 thinker1017 阅读(315) 评论(0) 推荐(0)
摘要: spark读取kafka数据流提供了两种方式createDstream和createDirectStream。 两者区别如下: 1、KafkaUtils.createDstream 构造函数为KafkaUtils.createDstream(ssc, [zk], [consumer group id 阅读全文
posted @ 2016-12-16 20:22 thinker1017 阅读(7187) 评论(0) 推荐(0)
摘要: 第一:提高并行度 并行度就是Spark作业中,各个stage的task数量,也就代表了Spark作业的在各个阶段(stage)的并行度。 第一:提高并行度 并行度就是Spark作业中,各个stage的task数量,也就代表了Spark作业的在各个阶段(stage)的并行度。 如果不调节并行度,导致并 阅读全文
posted @ 2016-12-16 17:43 thinker1017 阅读(962) 评论(0) 推荐(0)
摘要: 调优概述 大多数Spark作业的性能主要就是消耗在了shuffle环节,因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。因此,如果要让作业的性能更上一层楼,就有必要对shuffle过程进行调优。但是也必须提醒大家的是,影响一个Spark作业性能的因素,主要还是代码开发、资源参数以及数据倾 阅读全文
posted @ 2016-11-22 14:35 thinker1017 阅读(5314) 评论(0) 推荐(1)
摘要: 前言 继《Spark性能优化:开发调优篇》和《Spark性能优化:资源调优篇》讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。 1.数据倾斜调优 调优概述 有的时候,我们 阅读全文
posted @ 2016-11-22 14:33 thinker1017 阅读(9535) 评论(1) 推荐(8)
摘要: 在开发完Spark作业之后,就该为作业配置合适的资源了。Spark的资源参数,基本都可以在spark-submit命令中作为参数设置。很多Spark初学者,通常不知道该设置哪些必要的参数,以及如何设置这些参数,最后就只能胡乱设置,甚至压根儿不设置。资源参数设置的不合理,可能会导致没有充分利用集群资源 阅读全文
posted @ 2016-11-22 14:32 thinker1017 阅读(4557) 评论(0) 推荐(1)
摘要: 1、前言 在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中尝试使用Spark。大多数 阅读全文
posted @ 2016-11-22 14:28 thinker1017 阅读(2783) 评论(0) 推荐(0)
摘要: 目录:一.java NIO 和阻塞I/O的区别 1. 阻塞I/O通信模型 2. java NIO原理及通信模型二.java NIO服务端和客户端代码实现 具体分析: 一.java NIO 和阻塞I/O的区别 1. 阻塞I/O通信模型 假如现在你对阻塞I/O已有了一定了解,我们知道阻塞I/O在调用In 阅读全文
posted @ 2016-10-30 17:31 thinker1017 阅读(305) 评论(0) 推荐(0)
摘要: 分析对象: hadoop版本:hadoop 0.20.203.0必备技术点: 1. 动态代理(参考 :http://weixiaolu.iteye.com/blog/1477774 )2. Java NIO(参考 :http://weixiaolu.iteye.com/blog/1479656 )3 阅读全文
posted @ 2016-10-29 14:20 thinker1017 阅读(239) 评论(0) 推荐(0)