随笔分类 -  Hive

摘要:作者:Syn良子 出处:http://www.cnblogs.com/cssdongl/p/6857891.html 转载请注明出处 简单的说就是可以通过Hive SQL直接对hbase的表进行读写操作,对了,这里可能有人会问,为啥要这么集成呢,有什么场景呢。那我举个场景栗子,比如我们可能会用Hba 阅读全文
posted @ 2017-05-15 19:22 Syn良子 阅读(3693) 评论(0) 推荐(0)
摘要:作者:Syn良子 出处:http://www.cnblogs.com/cssdongl/p/6831884.html 转载请注明出处 虽然之前已经用过很多次hive的分区表,但是还是找时间快速回顾总结一下加深理解. 举个栗子,基本需求就是Hive有一张非常详细的原子数据表original_devic 阅读全文
posted @ 2017-05-09 18:05 Syn良子 阅读(29811) 评论(0) 推荐(1)
摘要:Map阶段的优化(Map phase) Mapred.min.split.size指的是数据的最小分割单元大小。 Mapred.max.split.size指的是数据的最大分割单元大小。 dfs.block.size指的是HDFS设置的数据块大小。 Reduce阶段的优化(Reduce phase) 阅读全文
posted @ 2017-01-03 18:25 Syn良子 阅读(852) 评论(0) 推荐(0)
摘要:作者:Syn良子 出处:http://www.cnblogs.com/cssdongl 转载请注明出处 有时候用hive读取外表数据时,比如csv这种类型的,需要跳过行首或者行尾一些和数据无关的或者自动生成的多余信息,这里可以用属性设置来实现,快速mark下,建表的时候设置如下 对,就是上面sql中 阅读全文
posted @ 2017-01-03 10:36 Syn良子 阅读(2713) 评论(0) 推荐(1)
摘要:作者:Syn良子 出处:http://www.cnblogs.com/cssdongl 转载请注明出处 从Hive的官方wiki来看,Hive0.7以后增加了一个对表建立index的功能,想试下性能是否有很大提升,参考了一些资料亲手实现了一遍,记录下过程和心得 一.测试数据准备 1.新建一个gen- 阅读全文
posted @ 2016-12-21 18:26 Syn良子 阅读(2128) 评论(0) 推荐(1)
摘要:例如: PS:下面的代码已经测试通过,木有问题。 http://hugh-wangp.iteye.com/blog/1405804 基于HIVE文件格式的map reduce代码编写http://smallboby.iteye.com/blog/1596776 普通文本压缩成RcFile的通用类ht 阅读全文
posted @ 2016-12-02 11:20 Syn良子 阅读(1503) 评论(0) 推荐(0)