随笔分类 -  Hive学习笔记

摘要:文件存储格式 Hive支持的存储数据的格式主要有:文本格式(TEXTFILE )、二进制序列化文件(SEQUENCEFILE)、行列式文件(RCFile)、优化的行列式文件(ORC)、PARQUET。其中优化的行列式文件(ORC)、PARQUET以其高效的数据存储和数据处理性能得以在实际的生产环境中 阅读全文
posted @ 2021-06-20 22:18 有心有梦 阅读(1024) 评论(0) 推荐(0)
摘要:fetch抓取 Fetch抓取是指,Hive中对某些情况的查询可以不必使用MapReduce计算。例如:SELECT * FROM employees;在这种情况下,Hive可以简单地读取employee对应的存储目录下的文件,然后输出查询结果到控制台。 在hive-default.xml.temp 阅读全文
posted @ 2021-05-17 12:23 有心有梦 阅读(115) 评论(0) 推荐(0)
摘要:Join语句 Hive支持通常的SQL JOIN语句,但是只支持等值连接,不支持非等值连接。标准的SQL支持非等值连接。 根据员工表和部门表中的部门编号相等,查询员工编号、员工名称和部门名称 select e.empno, e.ename, d.deptno, d.dname from emp e 阅读全文
posted @ 2021-05-14 12:44 有心有梦 阅读(1334) 评论(0) 推荐(0)
摘要:问题:蚂蚁森林低碳用户排名分析 查询user_low_carbon表中每日流水记录,条件为:用户在2017年,连续三天(或以上)的天数里,每天减少碳排放(low_carbon)都超过100g的用户低碳流水。需要查询返回满足以上条件的user_low_carbon表中的记录流水。例如用户u_002符合 阅读全文
posted @ 2020-07-06 14:26 有心有梦 阅读(580) 评论(0) 推荐(0)
摘要:问题: 假设2017年1月1日开始记录低碳数据(user_low_carbon),假设2017年10月1日之前满足申领条件的用户都申领了一颗p004-胡杨,剩余的能量全部用来领取“p002-沙柳” 。统计在10月1日累计申领“p002-沙柳” 排名前10的用户信息;以及他比后一名多领了几颗沙柳。 数 阅读全文
posted @ 2020-07-06 13:45 有心有梦 阅读(679) 评论(0) 推荐(1)
摘要:题目一: 我们有如下的用户访问数据 userId visitDate visitCount u01 2017/1/21 5 u02 2017/1/23 6 u03 2017/1/22 8 u04 2017/1/20 3 u01 2017/1/23 6 u01 2017/2/21 8 u02 2017 阅读全文
posted @ 2020-06-25 20:17 有心有梦 阅读(484) 评论(0) 推荐(0)