摘要: Hive 总结 总结人:XXX 2020.04.29 0.补充 0.1 什么是hive 1. Hive:由Facebook开源用于解决'海量结构化日志'的数据统计'工具'。 2. Hive是基于Hadoop的一个'数据仓库工具',可以将结构化的数据文件'映射'为一张表,并提供类SQL查询功能。 3. 阅读全文
posted @ 2024-03-26 21:46 四叶草520 阅读(49) 评论(0) 推荐(0)
摘要: 尚硅谷大数据技术之Flink优化(作者:尚硅谷大数据研发部)版本:V2.0资源配置调优Flink性能调优的第一步,就是为任务分配合适的资源,在一定范围内,增加资源的分配与性能的提升是成正比的,实现了最优的资源配置后,在此基础上再考虑进行后面论述的性能调优策略。提交方式主要是yarn-per-job, 阅读全文
posted @ 2024-03-26 21:43 四叶草520 阅读(435) 评论(0) 推荐(0)
摘要: 高级题SQL1各个视频的平均完播率-简单1.1 题目需求 计算2021年里有播放记录的每个视频的完播率(结果保留三位小数),并按完播率降序排序 注:视频完播率是指完成播放次数占总播放次数的比例。 简单起见,结束观看时间与开始播放时间的差>=视频时长时,视为完成播放。 1.2 表结构用户-视频互动表k 阅读全文
posted @ 2024-03-26 21:41 四叶草520 阅读(423) 评论(0) 推荐(0)