Hive - 随笔分类 - Syn良子

HiveHbase集成实践

摘要：作者：Syn良子出处：http://www.cnblogs.com/cssdongl/p/6857891.html 转载请注明出处简单的说就是可以通过Hive SQL直接对hbase的表进行读写操作，对了，这里可能有人会问，为啥要这么集成呢，有什么场景呢。那我举个场景栗子,比如我们可能会用Hba 阅读全文

posted @ 2017-05-15 19:22 Syn良子阅读(3702) 评论(0) 推荐(0)

Hive的静态分区和动态分区

摘要：作者：Syn良子出处：http://www.cnblogs.com/cssdongl/p/6831884.html 转载请注明出处虽然之前已经用过很多次hive的分区表，但是还是找时间快速回顾总结一下加深理解. 举个栗子，基本需求就是Hive有一张非常详细的原子数据表original_devic 阅读全文

posted @ 2017-05-09 18:05 Syn良子阅读(29883) 评论(0) 推荐(1)

深入浅出数据仓库中SQL性能优化之Hive篇

摘要：Map阶段的优化(Map phase) Mapred.min.split.size指的是数据的最小分割单元大小。 Mapred.max.split.size指的是数据的最大分割单元大小。 dfs.block.size指的是HDFS设置的数据块大小。 Reduce阶段的优化(Reduce phase) 阅读全文

posted @ 2017-01-03 18:25 Syn良子阅读(870) 评论(0) 推荐(0)

Hive读取外表数据时跳过文件行首和行尾

摘要：作者：Syn良子出处：http://www.cnblogs.com/cssdongl 转载请注明出处有时候用hive读取外表数据时，比如csv这种类型的，需要跳过行首或者行尾一些和数据无关的或者自动生成的多余信息，这里可以用属性设置来实现，快速mark下，建表的时候设置如下对，就是上面sql中阅读全文

posted @ 2017-01-03 10:36 Syn良子阅读(2722) 评论(0) 推荐(1)

Hive索引功能测试

摘要：作者：Syn良子出处：http://www.cnblogs.com/cssdongl 转载请注明出处从Hive的官方wiki来看，Hive0.7以后增加了一个对表建立index的功能,想试下性能是否有很大提升，参考了一些资料亲手实现了一遍，记录下过程和心得一.测试数据准备 1.新建一个gen- 阅读全文

posted @ 2016-12-21 18:26 Syn良子阅读(2136) 评论(0) 推荐(1)

基于 Hive 的文件格式：RCFile 简介及其应用

摘要：例如： PS：下面的代码已经测试通过，木有问题。 http://hugh-wangp.iteye.com/blog/1405804 基于HIVE文件格式的map reduce代码编写http://smallboby.iteye.com/blog/1596776 普通文本压缩成RcFile的通用类ht 阅读全文

posted @ 2016-12-02 11:20 Syn良子阅读(1513) 评论(0) 推荐(0)

Syn良子

每天都保持空杯心态

随笔分类 - Hive

公告