会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
Syn良子
每天都保持空杯心态
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
2016年12月2日
基于 Hive 的文件格式:RCFile 简介及其应用
摘要: 例如: PS:下面的代码已经测试通过,木有问题。 http://hugh-wangp.iteye.com/blog/1405804 基于HIVE文件格式的map reduce代码编写http://smallboby.iteye.com/blog/1596776 普通文本压缩成RcFile的通用类ht
阅读全文
posted @ 2016-12-02 11:20 Syn良子
阅读(1493)
评论(0)
推荐(0)
2016年12月1日
Gobblin采集kafka数据
摘要: 作者:Syn良子 出处:http://www.cnblogs.com/cssdongl 转载请注明出处 找时间记录一下利用Gobblin采集kafka数据的过程,话不多说,进入正题 一.Gobblin环境变量准备 需要配置好Gobblin0.7.0工作时对应的环境变量,可以去Gobblin的bin目
阅读全文
posted @ 2016-12-01 18:38 Syn良子
阅读(7595)
评论(27)
推荐(0)
2016年11月29日
Scala 中下划线的用途
摘要: http://colobu.com/2015/01/14/Scala-Quick-Start-for-Java-Programmers/
阅读全文
posted @ 2016-11-29 10:16 Syn良子
阅读(930)
评论(0)
推荐(0)
2016年11月23日
Gobblin编译支持CDH5.4.0
摘要: 作者:Syn良子 出处:http://www.cnblogs.com/cssdongl 转载请注明出处 Gobblin的前身是linkedin的Camus,好多人也用过,准备用Gobblin的方式来抽取数据,不过由于连接的集群是CDH的,而Gobblin默认支持的是hadoop2.3.0,因此需要手
阅读全文
posted @ 2016-11-23 18:11 Syn良子
阅读(1607)
评论(6)
推荐(0)
2016年11月18日
Kafka到Hdfs的数据Pipeline整理
摘要: 作者:Syn良子 出处:http://www.cnblogs.com/cssdongl 转载请注明出处 找时间总结整理了下数据从Kafka到Hdfs的一些pipeline,如下 Confluent的Kafka Connect旨在通过标准化如何将数据移入和移出Kafka来简化构建大规模实时数据管道的过
阅读全文
posted @ 2016-11-18 13:01 Syn良子
阅读(12250)
评论(5)
推荐(2)
2016年11月9日
Hadoop NameNode的ZKFC机制
摘要: 一般导致NameNode切换的原因 ZKFC的作用是什么?如何判断一个NN是否健康 NameNode HA是如何实现的? NameNode因为断电导致不能切换的原理,怎样进行恢复
阅读全文
posted @ 2016-11-09 11:52 Syn良子
阅读(2387)
评论(0)
推荐(0)
2016年11月4日
Windows下Eclipse提交MR程序到HadoopCluster
摘要: 作者:Syn良子 出处:http://www.cnblogs.com/cssdongl 欢迎转载,转载请注明出处. 一.配置MapReduce Maven工程 新建一个Maven工程,将CDH集群的相关xml配置文件(主要是core-site.xml,hdfs-site.xml,mapred-sit
阅读全文
posted @ 2016-11-04 18:10 Syn良子
阅读(1513)
评论(0)
推荐(0)
2016年11月2日
Kettle实现MapReduce之WordCount
摘要: 作者:Syn良子 出处:http://www.cnblogs.com/cssdongl 欢迎转载 抽空用kettle配置了一个Mapreduce的Word count,发现还是很方便快捷的,废话不多说,进入正题.一.创建Mapper转换 如下图,mapper读取hdfs输入,进行word的切分,输出
阅读全文
posted @ 2016-11-02 17:57 Syn良子
阅读(1908)
评论(0)
推荐(0)
2016年11月1日
hadoop中MapReduce多种join实现实例分析
摘要: 转载自:http://zengzhaozheng.blog.51cto.com/8219051/1392961 1、在Reudce端进行连接。 在Reudce端进行连接是MapReduce框架进行表之间join操作最为常见的模式,其具体的实现原理如下: Map端的主要工作:为来自不同表(文件)的ke
阅读全文
posted @ 2016-11-01 11:55 Syn良子
阅读(1027)
评论(0)
推荐(0)
2016年10月27日
Pentaho Kettle 6.1连接CDH5.4.0集群
摘要: 作者:Syn良子 出处:http://www.cnblogs.com/cssdongl 欢迎转载 最近把之前写的Hadoop MapReduce程序又总结了下,发现很多逻辑基本都是大致相同的,于是想到能不能利用ETL工具来进行配置相关逻辑来实现MapReduce代码自动生成并执行,这样可以简化现有以
阅读全文
posted @ 2016-10-27 18:41 Syn良子
阅读(6302)
评论(5)
推荐(1)
上一页
1
2
3
公告