随笔分类 - hive
摘要:数据倾斜解决 看下key的分布 处理集中的key 原因 1)、key分布不均匀(实际上还是重复) 比如 group by 或者 distinct的时候 2)、数据重复,join 笛卡尔积 数据膨胀 表现 任务进度长时间维持在99%(或100%),查看任务监控页面,发现只有少量(1个或几个)reduc
阅读全文
摘要:Hive 常用函数 关系运算 等值比较 = == <=> 不等值比较 != <> 区间比较: select * from default.students where id between 1500100001 and 1500100010; 空值/非空值判断:is null、is not null
阅读全文
摘要:HQL执行优先级 from、where、group by、having、ordert by、join、select、limit where条件里不支持不等式子查询,实际上是支持in、exists、not exists 列出与“SCOTT”从事相同工作的所有员工。 select t1.EMPNO ,
阅读全文
摘要:创建数据库 创建一个数据库,数据库在HDFS上的默认存储路径是/usr/hive/warehouse/*.db create database db_hive; 避免要创建的数据是已经存在错误,增加if not exists 判断。 create database db_hive if not ex
阅读全文
摘要:什么是Hive Hive:由Facebook开源用于解决海量结构化日志的数据统计。 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。 本质是:将HQL转化成MapReduce程序 Hive处理的数据存储在HDFS Hive分析数据底层的实现是
阅读全文
摘要:前提hadoop启动了 使用的hive 版本为1.2.1 还需要一个连接工具 mysql-connector-java-5.1.49.jar 解压 tar -zxvf /usr/local/moudle/apache-hive-1.2.1-bin.tar.gz -C /usr/local/soft/
阅读全文

浙公网安备 33010602011771号