摘要: 经典离线数仓架构(业界主流) ODS 数据准备区 DW 数据仓库层(DMI公共维度,DWD数据明细,DWS轻度数据汇聚) ADS 应用层 分层原因:1、简化问题2、明细血缘3、减少重复开发、计算4、适应业务的快速变化 Lambda架构(当前业界主流) batch Layer 批处理层(离线) 处理全 阅读全文
posted @ 2023-04-12 00:14 梦里繁花 阅读(98) 评论(1) 推荐(0) 编辑
摘要: 字符串: 存储文本信息,用于处理文本 str='字符串' 字节串: 存储二进制数据,常用于处理图像、音频、网络等数据 byte=b'字节串' 相互转换: str=byte.decode() byte=str.encode() 阅读全文
posted @ 2023-06-19 16:53 梦里繁花 阅读(57) 评论(0) 推荐(0) 编辑
摘要: Peak Pool Memory Direct / Mapped --直接缓冲池和映射缓冲池峰值内存 ## 什么是直接缓冲池和映射缓冲池? 在Java中,有两种类型的缓冲池:直接缓冲池和映射缓冲池。 直接缓冲池 1)从堆外内存分配,不受JVM管理 2)占用内存较多 3)相比从JVM复制数据到本地,性 阅读全文
posted @ 2023-06-08 11:29 梦里繁花 阅读(43) 评论(0) 推荐(0) 编辑
摘要: 之前知识总结、分享都是在公司内网进行,现在重新回到博客园。 原因如下: 低情商:内网的圈子太狭隘了,和外界不互通,接收不到反馈,但无法树立自己的个人声誉 高情商:当前新一波AI浪潮的风起云涌,但中文AI止步不前,中文互联网的凋零正在杀死中文AI。 中国AI或许可以通过英文训练,追上第一队列,但基于英 阅读全文
posted @ 2023-04-11 18:01 梦里繁花 阅读(22) 评论(0) 推荐(0) 编辑
摘要: kylin构建时数据倾斜发生情况及解决方案一览: 1)未开启重新分发中间表 (kylin.source.hive.redistribute-flat-table: false的时候,默认为True) 问题分析:先考虑启动Kylin自带缓解数据倾斜方案,也就是重分发中间表。 解决方案:开启重分发中间表 阅读全文
posted @ 2022-01-14 17:23 梦里繁花 阅读(104) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2022-01-14 17:04 梦里繁花 阅读(20) 评论(0) 推荐(0) 编辑
摘要: 问题描述:DataFrame的join结果不正确,dataframeA(6000无重复条数据) join dataframeB(220条无重复数据,由dataframeA转化而来,key值均源于dataframeA) 只有200条数据,丢了20条 问题验证: 1,查询丢的20条数据,均无异常,不存在 阅读全文
posted @ 2021-10-21 11:54 梦里繁花 阅读(390) 评论(0) 推荐(0) 编辑
摘要: 最近面试了静极思动,面试了不少大数据相关岗位。总结了一下考察的相关范围: 1、Java基础 出乎意料,大数据岗也会问一下不少Java的知识,像 多线程、JVM内存管理、四种引用、GC机制、CMS和G1区别 都是考察的重点 2、算法 HiveSQL 经典:分组TopN、连续值求解问题 经典算法:超内存 阅读全文
posted @ 2021-09-23 09:49 梦里繁花 阅读(75) 评论(0) 推荐(0) 编辑
摘要: common join 普通join,性能较差,存在Shuffle map join 适用情况:大表join小表时,做不等值join 原理:将小表数据广播到各个节点,存储在内存中,在map阶段直接join,不需要进行reduce,没有了shuffle 优点:性能大大提高 限制:小表需要在内存中放的下 阅读全文
posted @ 2021-08-31 16:40 梦里繁花 阅读(620) 评论(0) 推荐(0) 编辑
摘要: 分区器作用:决定该数据在哪个分区 概览: 仅仅只有pairRDD才可能持有分区器,普通RDD的分区器为None 在分区器为None时RDD分区一般继承至父RDD分区 初始RDD分区数: 由集合创建,RDD分区数为cores总数 由本地文件创建,RDD分区数为本地文件分片数 由HDFS文件创建,RDD 阅读全文
posted @ 2021-08-23 15:40 梦里繁花 阅读(115) 评论(0) 推荐(0) 编辑