jechedo

2016年10月8日

摘要： 1 前言 combineByKey是使用Spark无法避免的一个方法，总会在有意或无意，直接或间接的调用到它。从它的字面上就可以知道，它有聚合的作用，对于这点不想做过多的解释，原因很简单，因为reduceByKey、aggregateByKey、foldByKey等函数都是使用它来实现的。 comb 阅读全文

posted @ 2016-10-08 16:59 jechedo 阅读(5373) 评论(0) 推荐(1)

2016年9月30日

CDH集群主节点宕机恢复

摘要： 1 情况概述公司的开发集群在周末莫名其妙的主节点Hadoop-1的启动固态盘挂了，由于CM、HDFS的NameNode、HBase的Master都安装在Hadoop-1，导致了整个集群都无法使用，好在数据不在启动盘。 Hadoop-1的系统必须重装，但是不能重装集群，因为要将之前的数据全部保留恢复阅读全文

posted @ 2016-09-30 10:15 jechedo 阅读(6234) 评论(3) 推荐(1)

2016年8月3日

Spark RDD到底是个什么东西

摘要：前言用Spark有一段时间了，但是感觉还是停留在表面，对于Spark的RDD的理解还是停留在概念上，即只知道它是个弹性分布式数据集，其他的一概不知有点略显惭愧。下面记录下我对RDD的新的理解。官方介绍弹性分布式数据集。 RDD是只读的、分区记录的集合。RDD只能基于在稳定物理存储中的数据集和阅读全文

posted @ 2016-08-03 18:33 jechedo 阅读(21206) 评论(0) 推荐(5)

2016年7月16日

相同版本的CDH集群间迁移hdfs以及hbase

摘要：前言由于项目数据安全的需要，这段时间看了下hadoop的distcp的命令使用，不断的纠结的问度娘，度娘告诉我的结果也让我很纠结，都是抄来抄去，还好在牺牲大量的时间的基础上还终于搞出来了，顺便写这个随笔，记录下。环境目前我们是两套同版本的CDH集群，集群内的节点通信使用的私网，提供浮动ip对阅读全文

posted @ 2016-07-16 11:17 jechedo 阅读(3962) 评论(1) 推荐(0)

2016年1月20日

HBase单个RegionServer的region数目上限

摘要：前言 RegionServer维护Master分配给它的region，处理对这些region的IO请求,负责切分在运行过程中变得过大的region, 由于集群性能（分配的内存和磁盘是有限的）有限的，那么HBase单个RegionServer的region数目肯定是有上限的。Region数... 阅读全文

posted @ 2016-01-20 16:12 jechedo 阅读(5657) 评论(1) 推荐(2)

2016年1月14日

修改cdh5集群中主机节点IP或hostName

摘要：前言在使用cdh集群过程中，难免会因为某些不可抗拒的原因导致节点IP或hostName变动，而cm的监控界面无法完成这些事情，但是cm将集群中所有的主机的信息都存在postgresql数据库的hosts表中，现在让我们来通过修改hosts来完成这个操作。第一步，关闭服务1. 关闭集群服务，及 ... 阅读全文

posted @ 2016-01-14 13:21 jechedo 阅读(2849) 评论(2) 推荐(1)

2016年1月11日

cdh完美集成kafka

摘要：前言其实cloudera已经做了这个事了，只是把kafka的包和cdh的parcel包分离了，只要我们把分离开的kafka的服务描述jar包和服务parcel包下载了，就可以实现完美集成了。具体实现的简要步骤可参照cloudera官网提供的文档：http://www.cloudera.com... 阅读全文

posted @ 2016-01-11 21:02 jechedo 阅读(9221) 评论(3) 推荐(1)

2016年1月8日

Spark程序使用groupByKey后数据存入HBase出现重复的现象

摘要：最近在一个项目中做数据的分类存储，在spark中使用groupByKey后存入HBase，发现数据出现双份（所有记录的 rowKey 是随机唯一的）。经过不断的测试，发现是spark的运行参数配置的问题：spark.speculation=true，将其改为false，问题就解决了。哎... 阅读全文

posted @ 2016-01-08 18:23 jechedo 阅读(833) 评论(5) 推荐(2)

简简单单，做个快乐的搬运工。

公告