hive - 随笔分类 - 钟心意

HIve数据倾斜优化

摘要：数据倾斜解决看下key的分布处理集中的key 原因 1)、key分布不均匀（实际上还是重复）比如 group by 或者 distinct的时候 2)、数据重复，join 笛卡尔积数据膨胀表现任务进度长时间维持在99%（或100%），查看任务监控页面，发现只有少量（1个或几个）reduc 阅读全文

posted @ 2021-10-08 21:31 钟心意阅读(69) 评论(0) 推荐(0)

HIve(三)

摘要：Hive 常用函数关系运算等值比较 = == <=> 不等值比较 != <> 区间比较： select * from default.students where id between 1500100001 and 1500100010; 空值/非空值判断：is null、is not null 阅读全文

posted @ 2021-09-29 20:32 钟心意阅读(62) 评论(0) 推荐(0)

Hive(二)

摘要：HQL执行优先级 from、where、group by、having、ordert by、join、select、limit where条件里不支持不等式子查询，实际上是支持in、exists、not exists 列出与“SCOTT”从事相同工作的所有员工。 select t1.EMPNO , 阅读全文

posted @ 2021-09-29 20:09 钟心意阅读(126) 评论(0) 推荐(0)

HIve(一)

摘要：创建数据库创建一个数据库，数据库在HDFS上的默认存储路径是/usr/hive/warehouse/*.db create database db_hive; 避免要创建的数据是已经存在错误，增加if not exists 判断。 create database db_hive if not ex 阅读全文

posted @ 2021-09-27 22:01 钟心意阅读(80) 评论(0) 推荐(0)

Hive介绍

摘要：什么是Hive Hive：由Facebook开源用于解决海量结构化日志的数据统计。 Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。本质是：将HQL转化成MapReduce程序 Hive处理的数据存储在HDFS Hive分析数据底层的实现是阅读全文

posted @ 2021-09-26 20:34 钟心意阅读(171) 评论(0) 推荐(0)

hive的安装

摘要：前提hadoop启动了使用的hive 版本为1.2.1 还需要一个连接工具 mysql-connector-java-5.1.49.jar 解压 tar -zxvf /usr/local/moudle/apache-hive-1.2.1-bin.tar.gz -C /usr/local/soft/ 阅读全文

posted @ 2021-09-26 19:46 钟心意阅读(65) 评论(0) 推荐(0)

钟心意

随笔分类 - hive

公告