摘要: 1 前言 combineByKey是使用Spark无法避免的一个方法,总会在有意或无意,直接或间接的调用到它。从它的字面上就可以知道,它有聚合的作用,对于这点不想做过多的解释,原因很简单,因为reduceByKey、aggregateByKey、foldByKey等函数都是使用它来实现的。 comb 阅读全文
posted @ 2016-10-08 16:59 jechedo 阅读(5217) 评论(0) 推荐(1) 编辑
摘要: 1 情况概述 公司的开发集群在周末莫名其妙的主节点Hadoop-1的启动固态盘挂了,由于CM、HDFS的NameNode、HBase的Master都安装在Hadoop-1,导致了整个集群都无法使用,好在数据不在启动盘。 Hadoop-1的系统必须重装,但是不能重装集群,因为要将之前的数据全部保留恢复 阅读全文
posted @ 2016-09-30 10:15 jechedo 阅读(5985) 评论(3) 推荐(1) 编辑
摘要: 前言 用Spark有一段时间了,但是感觉还是停留在表面,对于Spark的RDD的理解还是停留在概念上,即只知道它是个弹性分布式数据集,其他的一概不知 有点略显惭愧。下面记录下我对RDD的新的理解。 官方介绍 弹性分布式数据集。 RDD是只读的、分区记录的集合。RDD只能基于在稳定物理存储中的数据集和 阅读全文
posted @ 2016-08-03 18:33 jechedo 阅读(21025) 评论(0) 推荐(5) 编辑
摘要: 前言 由于项目数据安全的需要,这段时间看了下hadoop的distcp的命令使用,不断的纠结的问度娘,度娘告诉我的结果也让我很纠结,都是抄来抄去, 还好在牺牲大量的时间的基础上还终于搞出来了,顺便写这个随笔,记录下。 环境 目前我们是两套同版本的CDH集群,集群内的节点通信使用的私网,提供浮动ip对 阅读全文
posted @ 2016-07-16 11:17 jechedo 阅读(3866) 评论(1) 推荐(0) 编辑
摘要: 前言 RegionServer维护Master分配给它的region,处理对这些region的IO请求,负责切分在运行过程中变得过大的region, 由于集群性能( 分配的内存和磁盘是有限的 )有限的,那么HBase单个RegionServer的region数目肯定是有上限的。Region数... 阅读全文
posted @ 2016-01-20 16:12 jechedo 阅读(5518) 评论(1) 推荐(2) 编辑
摘要: 前言 在使用cdh集群过程中,难免会因为某些不可抗拒的原因导致节点IP或hostName变动,而cm的监控界面无法完成这些事情,但是cm将集群中所有的主机的信息都存在postgresql数据库的hosts表中, 现在让我们来通过修改hosts来完成这个操作。第一步,关闭服务1. 关闭集群服务,及 ... 阅读全文
posted @ 2016-01-14 13:21 jechedo 阅读(2766) 评论(2) 推荐(1) 编辑
摘要: 前言 其实cloudera已经做了这个事了,只是把kafka的包和cdh的parcel包分离了,只要我们把分离开的kafka的服务描述jar包和服务parcel包下载了,就可以实现完美集成了。具体实现的简要步骤可参照cloudera官网提供的文档:http://www.cloudera.com... 阅读全文
posted @ 2016-01-11 21:02 jechedo 阅读(9184) 评论(3) 推荐(1) 编辑
摘要: 最近在一个项目中做数据的分类存储,在spark中使用groupByKey后存入HBase,发现数据出现双份( 所有记录的 rowKey 是随机 唯一的 ) 。经过不断的测试,发现是spark的运行参数配置的问题:spark.speculation=true, 将其改为false,问题就解决了。哎... 阅读全文
posted @ 2016-01-08 18:23 jechedo 阅读(804) 评论(5) 推荐(2) 编辑