随笔分类 -  开源分布式

Hive自定义UDAF详解
摘要:遇到一个Hive需求:有A、B、C三列,按A列进行聚合,求出C列聚合后的最小值和最大值各自对应的B列值。这个需求用hql和内建函数也可完成,但是比较繁琐,会解析成几个MR进行执行,如果自定义UDAF便可只利用一个MR完成任务。 所用Hive为0.13.1版本。UDAF有两种,第一种是比较简单的形式, 阅读全文
posted @ 2016-06-07 17:10 回家的流浪者 阅读(2411) 评论(0) 推荐(0)
Sqoop 命令
摘要:1)list-databases List available databases on a server sqoop list-databases --connect jdbc:db2://<server>:<port>/<database> --username username --passw 阅读全文
posted @ 2016-05-25 12:00 回家的流浪者 阅读(740) 评论(0) 推荐(0)