鲁边 - 博客园

[置顶] Hive存储格式之ORC File详解，什么是ORC File

摘要： ORC文件是以二进制的方式存储的，不可以直接读取，但由于ORC的自描述特性，其读写不依赖于 Hive Metastore 或任何其他外部元数据。本身存储了文件数据、数据类型及编码信息。因为文件是自包含的，所以读取ORC文件数据无需考虑用户使用环境。阅读全文

posted @ 2022-08-25 09:56 鲁边阅读(3206) 评论(1) 推荐(2)

2024年5月6日

大数据面试SQL每日一题系列：最高峰同时在线主播人数。字节，快手等大厂高频面试题

摘要：大数据面试SQL每日一题系列：最高峰同时在线主播人数。字节，快手等大厂高频面试题阅读全文

posted @ 2024-05-06 20:30 鲁边阅读(1572) 评论(0) 推荐(0)

2024年4月30日

大数据怎么学？对大数据开发领域及岗位的详细解读，完整理解大数据开发领域技术体系

摘要：我们通常说的大数据开发主要分为三大方向阅读全文

posted @ 2024-04-30 17:40 鲁边阅读(1807) 评论(0) 推荐(1)

2024年4月28日

什么是SQL 语句中相关子查询与非相关子查询

摘要：要理解相关子查询和非相关子查询，我们得首先理解什么是子查询，子查询是指在一个查询语句中嵌套的另一个查询语句。阅读全文

posted @ 2024-04-28 16:35 鲁边阅读(1464) 评论(0) 推荐(1)

2024年4月26日

SQL窗口分析函数使用详解系列三之偏移量类窗口函数

摘要： SQL窗口分析函数能够支持我们在更多的场景直接进行数据处理，进而更加深入和高效的进行数据分析。阅读全文

posted @ 2024-04-26 19:07 鲁边阅读(795) 评论(0) 推荐(0)

2024年4月15日

实时数仓构建：Flink+OLAP查询的一些实践与思考

摘要：以Flink为主的计算引擎配合OLAP查询分析引擎组合进而构建实时数仓**，其技术方案的选择是我们在技术选型过程中最常见的问题之一。也是很多公司和业务支持过程中会实实在在遇到的问题。很多人一提起实时数仓，就直接大谈特谈Hudi，Flink的流批一体等，但实际上，**实时数仓包括任何架构体系的构建如果我们抛开成本和稳定性谈技术，那都是有耍流氓的嫌疑。阅读全文

posted @ 2024-04-15 20:44 鲁边阅读(714) 评论(0) 推荐(2)

2024年4月13日

hive窗口分析函数使用详解系列二之分组排序窗口函数

摘要：我们讨论面试中各大厂的SQL算法面试题，往往核心考点就在于窗口函数，所以掌握好了窗口函数，面对SQL算法面试往往事半功倍。阅读全文

posted @ 2024-04-13 22:20 鲁边阅读(671) 评论(0) 推荐(0)

2024年4月7日

hive窗口分析函数使用详解系列一

摘要： Hive提供的窗口和分析函数可以分为聚合函数类窗口函数，分组排序类窗口函数，偏移量计算类窗口函数阅读全文

posted @ 2024-04-07 20:46 鲁边阅读(786) 评论(0) 推荐(0)

2023年6月29日

什么是hive的高级分组聚合，它的用法和注意事项以及性能分析

摘要：使用高级分组聚合不仅可以简化SQL语句，而且通常情况下会提升SQL语句的性能。阅读全文

posted @ 2023-06-29 17:29 鲁边阅读(1110) 评论(0) 推荐(0)

2023年6月21日

HiveSQL在使用聚合类函数的时候性能分析和优化详解

摘要：带聚合函数的SQL逻辑，我们可以根据其执行过程的不同，将其分成三大类来进行分析：仅在Reduce阶段聚合的SQL执行逻辑在Map和Reduce阶段都有聚合操作的SQL执行逻辑高级分组聚合的执行SQL逻辑阅读全文

posted @ 2023-06-21 11:32 鲁边阅读(752) 评论(0) 推荐(0)

2023年6月14日

Hive常见时间日期函数的使用与问题整理

摘要： hive本身提供的时间函数已经很丰富了，基本上能满足我们所有的需求，一些特殊需求也可以通过增加一些数学逻辑实现出来。阅读全文

posted @ 2023-06-14 17:40 鲁边阅读(3406) 评论(0) 推荐(0)