随笔分类 -  Hive

Hive相关文章
摘要:本文参考: "黑泽君相关博客" 本文是我总结日常工作中遇到的坑,结合黑泽君相关博客,选取、补充了部分内容。 表的优化 小表join大表、大表join小表 将key相对分散,并且数据量小的表放在join的左边,这样可以有效减少内存溢出错误发生的几率; 再进一步,可以使用map join让小的维度表(1 阅读全文
posted @ 2019-07-16 22:43 lillcol 阅读(726) 评论(0) 推荐(0)
摘要:本文参考: "黑泽君相关博客" 本文是我总结日常工作中遇到的坑,结合黑泽君相关博客,选取、补充了部分内容。 开启 map 输出阶段压缩可以减少 job 中 map 和 Reduce task 间数据传输量。 查看配置命令如下,对应的设置只要加上相关值即可,如下 当 Hive 将输出写入到表中时,输出 阅读全文
posted @ 2019-07-16 22:30 lillcol 阅读(4001) 评论(0) 推荐(0)
摘要:本文参考: "黑泽君相关博客" 本文是我总结日常工作中遇到的坑,结合黑泽君相关博客,选取、补充了部分内容。 查询函数(Hive高级) NVL(cloumn,replace_with) 如果cloumn为NULL,则NVL函数返回 replace_with 的值; 否则返回cloumn的值; 如果两个 阅读全文
posted @ 2019-07-15 21:52 lillcol 阅读(566) 评论(0) 推荐(1)
摘要:本文参考: "黑泽君相关博客" 本文是我总结日常工作中遇到的坑,结合黑泽君相关博客,选取、补充了部分内容。 上传数据 1. 上传数据后执行修复 msck 命令 2. 上传数据后添加分区 3. 创建文件夹后load数据到分区(最常用) Export导出数据 like和rlike 1)使用LIKE运算选 阅读全文
posted @ 2019-07-15 21:50 lillcol 阅读(361) 评论(0) 推荐(0)
摘要:Spark处理后的结果数据resultDataFrame可以有多种存储介质,比较常见是存储为文件、关系型数据库,非关系行数据库。 各种方式有各自的特点,对于海量数据而言,如果想要达到实时查询的目的,使用HBase作为存储的介质是非常不错的选择。 现需求是:Spark对Hive、mysql数据源进行处 阅读全文
posted @ 2018-10-16 18:20 lillcol 阅读(4119) 评论(0) 推荐(0)