摘要:
1)MapJoin如果不指定MapJoin或者不符合MapJoin的条件,那么Hive解析器会将Join操作转换成Common Join,即:在Reduce阶段完成join。容易发生数据倾斜。可以用MapJoin把小表全部加载到内存在map端进行join,避免reducer处理。 2)行列过滤列处理 阅读全文
posted @ 2019-11-20 20:49
Y歪
阅读(179)
评论(0)
推荐(0)
摘要:
1) OVER():指定分析函数工作的数据窗口大小,这个数据窗口大小可能会随着行的变而变化2)CURRENT ROW:当前行3)n PRECEDING:往前n行数据4) n FOLLOWING:往后n行数据5)UNBOUNDED:起点,UNBOUNDED PRECEDING 表示从前面的起点, UN 阅读全文
posted @ 2019-11-20 20:46
Y歪
阅读(164)
评论(0)
推荐(0)
摘要:
RANK() 排序相同时会重复,总数不会变DENSE_RANK() 排序相同时会重复,总数会减少ROW_NUMBER() 会根据顺序计算 《小小的案例》 1)数据准备:#vi score.txt孙悟空 语文 87孙悟空 数学 95孙悟空 英语 68大海 语文 94大海 数学 56大海 英语 84宋宋 阅读全文
posted @ 2019-11-20 20:45
Y歪
阅读(3359)
评论(0)
推荐(0)
摘要:
1.内部表和外部表1)管理表:当我们删除一个管理表时,Hive也会删除这个表中数据。管理表不适合和其他工具共享数据。2)外部表:删除该表并不会删除掉原始数据,删除的是表的元数据 2.管理表和外部表的使用场景每天将收集到的网站日志定期流入HDFS文本文件。在外部表(原始日志表)的基础上做大量的统计分析 阅读全文
posted @ 2019-11-20 20:29
Y歪
阅读(2781)
评论(0)
推荐(0)
摘要:
阅读全文
posted @ 2019-11-20 20:25
Y歪
阅读(225)
评论(0)
推荐(0)
摘要:
1.用户接口:Client CLI(hive shell)、JDBC/ODBC(java访问hive)、WEBUI(浏览器访问hive) 2.元数据:Metastore 元数据包括:表名、表所属的数据库(默认是default)、表的拥有者、列/分区字段、表的类型(是否是外部表)、表的数据所在目录等; 阅读全文
posted @ 2019-11-20 20:18
Y歪
阅读(192)
评论(0)
推荐(0)

浙公网安备 33010602011771号