会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
梦里繁花
博客园
首页
新随笔
联系
订阅
管理
[置顶]
大数据常见架构
摘要: 经典离线数仓架构(业界主流) ODS 数据准备区 DW 数据仓库层(DMI公共维度,DWD数据明细,DWS轻度数据汇聚) ADS 应用层 分层原因:1、简化问题2、明细血缘3、减少重复开发、计算4、适应业务的快速变化 Lambda架构(当前业界主流) batch Layer 批处理层(离线) 处理全
阅读全文
posted @ 2023-04-12 00:14 梦里繁花
阅读(241)
评论(1)
推荐(0)
2023年6月19日
python代码中的字节串和字符串
摘要: 字符串: 存储文本信息,用于处理文本 str='字符串' 字节串: 存储二进制数据,常用于处理图像、音频、网络等数据 byte=b'字节串' 相互转换: str=byte.decode() byte=str.encode()
阅读全文
posted @ 2023-06-19 16:52 梦里繁花
阅读(70)
评论(0)
推荐(0)
2023年6月8日
SparkUI中的Peak Pool Memory Direct / Mapped (直接缓冲池和映射缓冲池)
摘要: Peak Pool Memory Direct / Mapped --直接缓冲池和映射缓冲池峰值内存 ## 什么是直接缓冲池和映射缓冲池? 在Java中,有两种类型的缓冲池:直接缓冲池和映射缓冲池。 直接缓冲池 1)从堆外内存分配,不受JVM管理 2)占用内存较多 3)相比从JVM复制数据到本地,性
阅读全文
posted @ 2023-06-08 11:28 梦里繁花
阅读(85)
评论(0)
推荐(0)
2023年4月11日
回来了,好好更新
摘要: 之前知识总结、分享都是在公司内网进行,现在重新回到博客园。 原因如下: 低情商:内网的圈子太狭隘了,和外界不互通,接收不到反馈,但无法树立自己的个人声誉 高情商:当前新一波AI浪潮的风起云涌,但中文AI止步不前,中文互联网的凋零正在杀死中文AI。 中国AI或许可以通过英文训练,追上第一队列,但基于英
阅读全文
posted @ 2023-04-11 18:01 梦里繁花
阅读(56)
评论(0)
推荐(0)
2022年1月14日
Kylin3.1.2实战--调优CUBE构建数据倾斜优化
摘要: kylin构建时数据倾斜发生情况及解决方案一览: 1)未开启重新分发中间表 (kylin.source.hive.redistribute-flat-table: false的时候,默认为True) 问题分析:先考虑启动Kylin自带缓解数据倾斜方案,也就是重分发中间表。 解决方案:开启重分发中间表
阅读全文
posted @ 2022-01-14 17:23 梦里繁花
阅读(162)
评论(0)
推荐(0)
Kylin基础知识图
摘要:
阅读全文
posted @ 2022-01-14 17:04 梦里繁花
阅读(39)
评论(0)
推荐(0)
2021年10月21日
Spark解决SQL和RDDjoin结果不一致问题(工作实录)
摘要: 问题描述:DataFrame的join结果不正确,dataframeA(6000无重复条数据) join dataframeB(220条无重复数据,由dataframeA转化而来,key值均源于dataframeA) 只有200条数据,丢了20条 问题验证: 1,查询丢的20条数据,均无异常,不存在
阅读全文
posted @ 2021-10-21 11:54 梦里繁花
阅读(485)
评论(0)
推荐(0)
2021年9月23日
大数据开发工师面试复盘
摘要: 最近面试了静极思动,面试了不少大数据相关岗位。总结了一下考察的相关范围: 1、Java基础 出乎意料,大数据岗也会问一下不少Java的知识,像 多线程、JVM内存管理、四种引用、GC机制、CMS和G1区别 都是考察的重点 2、算法 HiveSQL 经典:分组TopN、连续值求解问题 经典算法:超内存
阅读全文
posted @ 2021-09-23 09:49 梦里繁花
阅读(85)
评论(0)
推荐(0)
2021年8月31日
Hive中的4种Join方式
摘要: common join 普通join,性能较差,存在Shuffle map join 适用情况:大表join小表时,做不等值join 原理:将小表数据广播到各个节点,存储在内存中,在map阶段直接join,不需要进行reduce,没有了shuffle 优点:性能大大提高 限制:小表需要在内存中放的下
阅读全文
posted @ 2021-08-31 16:40 梦里繁花
阅读(720)
评论(0)
推荐(0)
2021年8月23日
Spark分区器浅析
摘要: 分区器作用:决定该数据在哪个分区 概览: 仅仅只有pairRDD才可能持有分区器,普通RDD的分区器为None 在分区器为None时RDD分区一般继承至父RDD分区 初始RDD分区数: 由集合创建,RDD分区数为cores总数 由本地文件创建,RDD分区数为本地文件分片数 由HDFS文件创建,RDD
阅读全文
posted @ 2021-08-23 15:40 梦里繁花
阅读(133)
评论(0)
推荐(0)
下一页
公告