Hive - 随笔分类 - lillcol

hive 总结四（优化）

摘要：本文参考： "黑泽君相关博客" 本文是我总结日常工作中遇到的坑，结合黑泽君相关博客，选取、补充了部分内容。表的优化小表join大表、大表join小表将key相对分散，并且数据量小的表放在join的左边，这样可以有效减少内存溢出错误发生的几率；再进一步，可以使用map join让小的维度表（1 阅读全文

posted @ 2019-07-16 22:43 lillcol 阅读(739) 评论(0) 推荐(0)

hive 总结三（压缩）

摘要：本文参考： "黑泽君相关博客" 本文是我总结日常工作中遇到的坑，结合黑泽君相关博客，选取、补充了部分内容。开启 map 输出阶段压缩可以减少 job 中 map 和 Reduce task 间数据传输量。查看配置命令如下，对应的设置只要加上相关值即可,如下当 Hive 将输出写入到表中时，输出阅读全文

posted @ 2019-07-16 22:30 lillcol 阅读(4006) 评论(0) 推荐(0)

hive 总结二

摘要：本文参考： "黑泽君相关博客" 本文是我总结日常工作中遇到的坑，结合黑泽君相关博客，选取、补充了部分内容。查询函数（Hive高级） NVL(cloumn,replace_with) 如果cloumn为NULL，则NVL函数返回 replace_with 的值；否则返回cloumn的值；如果两个阅读全文

posted @ 2019-07-15 21:52 lillcol 阅读(578) 评论(0) 推荐(1)

hive 总结一

摘要：本文参考： "黑泽君相关博客" 本文是我总结日常工作中遇到的坑，结合黑泽君相关博客，选取、补充了部分内容。上传数据 1. 上传数据后执行修复 msck 命令 2. 上传数据后添加分区 3. 创建文件夹后load数据到分区（最常用） Export导出数据 like和rlike 1）使用LIKE运算选阅读全文

posted @ 2019-07-15 21:50 lillcol 阅读(373) 评论(0) 推荐(0)

Spark：DataFrame批量导入Hbase的两种方式(HFile、Hive)

摘要：Spark处理后的结果数据resultDataFrame可以有多种存储介质，比较常见是存储为文件、关系型数据库，非关系行数据库。各种方式有各自的特点，对于海量数据而言，如果想要达到实时查询的目的，使用HBase作为存储的介质是非常不错的选择。现需求是：Spark对Hive、mysql数据源进行处阅读全文

posted @ 2018-10-16 18:20 lillcol 阅读(4132) 评论(0) 推荐(0)

lillcol

随笔分类 - Hive

公告