摘要: HiveSQL 原理 join join 分为 MapJoin、ReduceJoin 两种,其中 MapJoin 思想是将小表存内存,然后大表分片,与小表完成连接操作。 MapJoin Map 阶段分为两个操作: 将小表数据读入内存,生成分片文件后存储到分布式存储系统中; 每个 Mapper 从分布 阅读全文
posted @ 2024-08-08 11:07 Stitches 阅读(115) 评论(0) 推荐(0)
摘要: 注意点 全局排序 OrderBy SELECT <select_expression>, <select_expression>, ... FROM <table_name> ORDER BY <col_name> [ASC|DESC] [,col_name [ASC|DESC], ...] Hiv 阅读全文
posted @ 2024-08-08 11:07 Stitches 阅读(42) 评论(0) 推荐(0)
摘要: 窗口函数 窗口函数可以更加灵活地对一定范围内的数据进行操作和分析,它能够为每行数据划分一个窗口,然后对窗口范围内的数据进行计算,最后将计算结果返回给该行数据; 举个例子,区别于 GroupBy,GroupBy 对分组范围内的数据进行聚合统计,得到当前分组的一条结果;窗口函数对每一条数据处理,展开一个 阅读全文
posted @ 2024-08-08 11:06 Stitches 阅读(400) 评论(0) 推荐(0)
摘要: 接口改造 背景 现有旧订单接口 orderDetail,该接口会返回全量节点,部分节点不会使用因此造成了冗余,给数据库造成了较大压力,因此改造新接口 basicOrderDetail(xxx) 支持传入需要赋值的节点,方便赋值。 有如下改造方案: 现有多个其他部分接口调用当前 orderDetail 阅读全文
posted @ 2024-08-01 15:20 Stitches 阅读(65) 评论(0) 推荐(0)
摘要: 背景 货架系统1期实现了收口各系统的售前售卖配置和治理,2期希望能统一对货架售卖商品提供实时的风控、监控、报表功能。 难点 要求对近 7 天的售卖数据进行聚合,时间跨度大,数据量大,且要保证实时性,单纯 SQL 语句无法达到目标。 数据报表 需求: 统计每个货架一周内的下单量和支付量,货架表总数量为 阅读全文
posted @ 2024-08-01 15:19 Stitches 阅读(42) 评论(0) 推荐(0)
摘要: Hive 分区表 https://blog.csdn.net/weixin_41122339/article/details/81584110 表在存储时,可以将数据根据分区键的列值存储在表目录的子目录中。这样将数据切分到不同目录存储后,可以加快对分区键字段的查询和过滤速度,通过在查询条件中指定过滤 阅读全文
posted @ 2024-07-26 19:16 Stitches 阅读(68) 评论(0) 推荐(0)
摘要: Hive DDL 操作 操作前需要保证 hive 成功启动: # 启动 HiveServer2 hive --service hiveserver2 & # 启动 MetaStore hive --service metastore & # 进入 hive 命令行界面 beeline -u jdbc 阅读全文
posted @ 2024-07-26 19:15 Stitches 阅读(29) 评论(0) 推荐(0)
摘要: SparkStreaming sparkStreaming 用于处理流式数据,其中输入数据源包括 Kafka、Flume、HDFS 等;结果输出目的地址包括 HDFS、数据库。 SparkCore 对应 RDD;SparkSQL 对应 DataFrame/DataSet;SparkStreaming 阅读全文
posted @ 2024-07-26 14:51 Stitches 阅读(23) 评论(0) 推荐(0)
摘要: SparkSQL简介 为什么需要 SparkSQL? Spark 的 RDD有一定局限性,无法处理结构化数据(比如 json 格式等等); SparkSQL 提供了两种编程的抽象,DataFrame(关心数据结构不关心类型),DataSet(关心面向对象的数据); RDD、DataFrame、Dat 阅读全文
posted @ 2024-07-23 20:59 Stitches 阅读(42) 评论(0) 推荐(0)
摘要: hive简介 为什么产生 hive? MapReduce 提供了通用的分布式开发能力,但是是一个通用的计算引擎,对于一些特殊的数据处理效率较低。比如常见的结构化数据用 SQL 处理,但是数据达到某个量级后单机数据库无法承受,势必要转向大数据平台,而大数据平台有自己单独的计算引擎,所以之前所有使用 S 阅读全文
posted @ 2024-07-19 15:17 Stitches 阅读(32) 评论(0) 推荐(0)