thinker1017 - 博客园

2016年12月16日

摘要：使用FileSystem类进行文件读写及查看文件信息在这一节我们要深入了解Hadoop的FileSystem类——这是与与hadoop的文件系统交互的重要接口。虽然我们只是着重于HDFS的实现，但我们在编码时一般也要注意代码在FileSystem不同子类文件系统之间的可移植性。这是非常有用的，比如阅读全文

posted @ 2016-12-16 21:11 thinker1017 阅读(5795) 评论(0) 推荐(0)

B-树和B+树的应用：数据搜索和数据库索引

摘要： B-树 1 .B-树定义 B-树是一种平衡的多路查找树，它在文件系统中很有用。定义：一棵m 阶的B-树，或者为空树，或为满足下列特性的m 叉树：⑴树中每个结点至多有m 棵子树；⑵若根结点不是叶子结点，则至少有两棵子树； ⑶除根结点之外的所有非终端结点至少有[m/2] 棵子树；⑷所有的非终端结点中包阅读全文

posted @ 2016-12-16 20:28 thinker1017 阅读(319) 评论(0) 推荐(0)

spark 的createDstream和createDirectStream区别

摘要： spark读取kafka数据流提供了两种方式createDstream和createDirectStream。两者区别如下： 1、KafkaUtils.createDstream 构造函数为KafkaUtils.createDstream(ssc, [zk], [consumer group id 阅读全文

posted @ 2016-12-16 20:22 thinker1017 阅读(7189) 评论(0) 推荐(0)

spark性能调优

摘要：第一：提高并行度并行度就是Spark作业中，各个stage的task数量，也就代表了Spark作业的在各个阶段（stage）的并行度。第一：提高并行度并行度就是Spark作业中，各个stage的task数量，也就代表了Spark作业的在各个阶段（stage）的并行度。如果不调节并行度，导致并阅读全文

posted @ 2016-12-16 17:43 thinker1017 阅读(964) 评论(0) 推荐(0)

2016年11月22日

Spark性能优化：shuffle调优

摘要：调优概述大多数Spark作业的性能主要就是消耗在了shuffle环节，因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。因此，如果要让作业的性能更上一层楼，就有必要对shuffle过程进行调优。但是也必须提醒大家的是，影响一个Spark作业性能的因素，主要还是代码开发、资源参数以及数据倾阅读全文

posted @ 2016-11-22 14:35 thinker1017 阅读(5316) 评论(0) 推荐(1)

Spark性能优化：数据倾斜调优

摘要：前言继《Spark性能优化：开发调优篇》和《Spark性能优化：资源调优篇》讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后，本文作为《Spark性能优化指南》的高级篇，将深入分析数据倾斜调优与shuffle调优，以解决更加棘手的性能问题。 1.数据倾斜调优调优概述有的时候，我们阅读全文

posted @ 2016-11-22 14:33 thinker1017 阅读(9552) 评论(1) 推荐(8)

Spark性能优化：资源调优篇

摘要：在开发完Spark作业之后，就该为作业配置合适的资源了。Spark的资源参数，基本都可以在spark-submit命令中作为参数设置。很多Spark初学者，通常不知道该设置哪些必要的参数，以及如何设置这些参数，最后就只能胡乱设置，甚至压根儿不设置。资源参数设置的不合理，可能会导致没有充分利用集群资源阅读全文

posted @ 2016-11-22 14:32 thinker1017 阅读(4560) 评论(0) 推荐(1)

Spark性能优化：开发调优篇

摘要： 1、前言在大数据计算领域，Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作，应用范围与前景非常广泛。在美团•大众点评，已经有很多同学在各种项目中尝试使用Spark。大多数阅读全文

posted @ 2016-11-22 14:28 thinker1017 阅读(2784) 评论(0) 推荐(0)

2016年10月30日

Java NIO原理图文分析及代码实现

摘要：目录：一．java NIO 和阻塞I/O的区别 1. 阻塞I/O通信模型 2. java NIO原理及通信模型二．java NIO服务端和客户端代码实现具体分析：一．java NIO 和阻塞I/O的区别 1. 阻塞I/O通信模型假如现在你对阻塞I/O已有了一定了解，我们知道阻塞I/O在调用In 阅读全文

posted @ 2016-10-30 17:31 thinker1017 阅读(305) 评论(0) 推荐(0)

2016年10月29日

源码级强力分析hadoop的RPC机制

摘要：分析对象： hadoop版本：hadoop 0.20.203.0必备技术点： 1. 动态代理（参考：http://weixiaolu.iteye.com/blog/1477774 ）2. Java NIO（参考：http://weixiaolu.iteye.com/blog/1479656 ）3 阅读全文

posted @ 2016-10-29 14:20 thinker1017 阅读(239) 评论(0) 推荐(0)

公告