摘要: 在《HDFS源码分析心跳汇报之整体结构》一文中,我们详细了解了HDFS中关于心跳的整体结构,知道了BlockPoolManager、BPOfferService和BPServiceActor三者之间的关系。那么,HDFS心跳相关的这些数据结构,都是如何被初始化的呢?本文,我们就开始研究HDFS心跳汇 阅读全文
posted @ 2016-06-03 14:34 吉日木图 阅读(453) 评论(0) 推荐(1) 编辑
摘要: 我们知道,HDFS全称是Hadoop Distribute FileSystem,即Hadoop分布式文件系统。既然它是一个分布式文件系统,那么肯定存在很多物理节点,而这其中,就会有主从节点之分。在HDFS中,主节点是名字节点NameNode,它负责存储整个HDFS中文件元数据信息,保存了名字节点第 阅读全文
posted @ 2016-06-03 14:33 吉日木图 阅读(325) 评论(0) 推荐(0) 编辑
摘要: 在《HDFS源码分析之DataXceiverServer》一文中,我们了解到在DataNode中,有一个后台工作的线程DataXceiverServer。它被用于接收来自客户端或其他数据节点的数据读写请求,为每个数据读写请求创建一个单独的线程去处理。而处理每次读写请求时所创建的线程,就是本文要讲的D 阅读全文
posted @ 2016-06-03 14:32 吉日木图 阅读(669) 评论(0) 推荐(0) 编辑
摘要: DataXceiverServer是Hadoop分布式文件系统HDFS的从节点--数据节点DataNode上的一个后台工作线程,它类似于一个小型的服务器,被用来接收数据读写请求,并为每个请求创建一个工作线程以进行请求的响应。那么,有以下几个问题: 1、DataXceiverServer是什么? 2、 阅读全文
posted @ 2016-06-03 14:30 吉日木图 阅读(400) 评论(0) 推荐(0) 编辑
摘要: 安装和配置详解 本文介绍的 Zookeeper 是以 3.2.2 这个稳定版本为基础,最新的版本可以通过官网 http://hadoop.apache.org/zookeeper/来获取,Zookeeper 的安装非常简单,下面将从单机模式和集群模式两个方面介绍 Zookeeper 的安装和配置。 阅读全文
posted @ 2016-05-25 14:48 吉日木图 阅读(480) 评论(0) 推荐(1) 编辑
摘要: 在本博客的《Spark Streaming和Kafka整合开发指南(一)》文章中介绍了如何使用基于Receiver的方法使用Spark Streaming从Kafka中接收数据。本文将介绍如何使用Spark 1.3.0引入的Direct API从Kafka中读数据。 和基于Receiver接收数据不 阅读全文
posted @ 2016-04-25 13:36 吉日木图 阅读(395) 评论(0) 推荐(0) 编辑
摘要: Apache Kafka是一个分布式的消息发布-订阅系统。可以说,任何实时大数据处理工具缺少与Kafka整合都是不完整的。本文将介绍如何使用Spark Streaming从Kafka中接收数据,这里将会介绍两种方法:(1)、使用Receivers和Kafka高层次的API;(2)、使用Direct 阅读全文
posted @ 2016-04-25 13:25 吉日木图 阅读(253) 评论(0) 推荐(0) 编辑
摘要: 作者Michael G. Noll是瑞士的一位工程师和研究员,效力于Verisign,是Verisign实验室的大规模数据分析基础设施(基础Hadoop)的技术主管。本文,Michael详细的演示了如何将Kafka整合到Spark Streaming中。 期间, Michael还提到了将Kafka整 阅读全文
posted @ 2016-04-06 17:22 吉日木图 阅读(254) 评论(0) 推荐(0) 编辑
摘要: 1、在core-site.xml中配置 <property> <name>hadoop.proxyuser.root.groups</name> <value>root</value> </property> <property> <name>hadoop.proxyuser.root.hosts< 阅读全文
posted @ 2016-03-21 13:44 吉日木图 阅读(435) 评论(0) 推荐(0) 编辑
摘要: 下面这些关于Spark的性能调优项,有的是来自官方的,有的是来自别的的工程师,有的则是我自己总结的。 基本概念和原则 首先,要搞清楚Spark的几个基本概念和原则,否则系统的性能调优无从谈起: 每一台host上面可以并行N个worker,每一个worker下面可以并行M个executor,task们 阅读全文
posted @ 2016-03-15 12:50 吉日木图 阅读(300) 评论(0) 推荐(0) 编辑