会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
五分钟学大数据
侧边栏公告处有公众号【五分钟学大数据】二维码,可放心订阅,文章都会首发在公众号上。
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
5
6
7
8
下一页
2021年8月16日
Spark的两种核心Shuffle详解
摘要: 在 MapReduce 框架中, Shuffle 阶段是连接 Map 与 Reduce 之间的桥梁, Map 阶段通过 Shuffle 过程将数据输出到 Reduce 阶段中。由于 Shuffle 涉及磁盘的读写和网络 I/O,因此 Shuffle 性能的高低直接影响整个程序的性能。 Spark 也
阅读全文
posted @ 2021-08-16 15:26 五分钟学大数据
阅读(5004)
评论(0)
推荐(2)
2021年8月5日
实战 | Hive 数据倾斜问题定位排查及解决
摘要: Hive 数据倾斜怎么发现,怎么定位,怎么解决 多数介绍数据倾斜的文章都是以大篇幅的理论为主,并没有给出具体的数据倾斜案例。当工作中遇到了倾斜问题,这些理论很难直接应用,导致我们面对倾斜时还是不知所措。 今天我们不扯大篇理论,直接以例子来实践,排查是否出现了数据倾斜,具体是哪段代码导致的倾斜,怎么解
阅读全文
posted @ 2021-08-05 21:28 五分钟学大数据
阅读(3366)
评论(0)
推荐(0)
2021年8月2日
Hive SQL语句的正确执行顺序
摘要: 关于 sql 语句的执行顺序网上有很多资料,但是大多都没进行验证,并且很多都有点小错误,尤其是对于 select 和 group by 执行的先后顺序,有说 select 先执行,有说 group by 先执行,到底它俩谁先执行呢? 今天我们通过 explain 来验证下 sql 的执行顺序。 在验
阅读全文
posted @ 2021-08-02 09:55 五分钟学大数据
阅读(2351)
评论(0)
推荐(2)
2021年7月22日
关于数仓建设及数据治理的超全概括
摘要: 本文分为两大节介绍,第一节是数仓建设,第二节是数据治理,内容较长,还请耐心阅读! 在谈数仓之前,先来看下面几个问题: 数仓为什么要分层? 用空间换时间,通过大量的预处理来提升应用系统的用户体验(效率),因此数据仓库会存在大量冗余的数据;不分层的话,如果源业务系统的业务规则发生变化将会影响整个数据清洗
阅读全文
posted @ 2021-07-22 15:34 五分钟学大数据
阅读(2229)
评论(0)
推荐(3)
2021年7月17日
基于Flink构建全场景实时数仓
摘要: 目录: 一. 实时计算初期 二. 实时数仓建设 三. Lambda架构的实时数仓 四. Kappa架构的实时数仓 五. 流批结合的实时数仓 实时计算初期 虽然实时计算在最近几年才火起来,但是在早期也有部分公司有实时计算的需求,但是数据量比较少,所以在实时方面形成不了完整的体系,基本所有的开发都是具体
阅读全文
posted @ 2021-07-17 13:00 五分钟学大数据
阅读(2845)
评论(1)
推荐(1)
2021年7月16日
2021超全大数据面试宝典,吐血总结十万字,大数据面试收藏这一篇就够了
摘要: 本文最新版已发布至公众号【五分钟学大数据】 获取此套面试题最新pdf版,请搜索公众号【五分钟学大数据】,对话框发送 面试宝典 扫码获取最新PDF版: 版本 时间 描述 V1.0 2020-02-18 创建 V1.2 2020-06-17 新增 spark 、flink相关面试题 V1.3 2021-
阅读全文
posted @ 2021-07-16 16:22 五分钟学大数据
阅读(2157)
评论(0)
推荐(0)
2021年7月13日
Flink进入大厂面试准备,收藏这一篇就够了
摘要: 1. Flink 的容错机制(checkpoint) Checkpoint机制是Flink可靠性的基石,可以保证Flink集群在某个算子因为某些原因(如 异常退出)出现故障时,能够将整个应用流图的状态恢复到故障之前的某一状态,保证应用流图状态的一致性。Flink的Checkpoint机制原理来自“C
阅读全文
posted @ 2021-07-13 17:45 五分钟学大数据
阅读(1597)
评论(0)
推荐(0)
2021年7月12日
一文读懂大数据实时计算
摘要: 本文分为四个章节介绍实时计算,第一节介绍实时计算出现的原因及概念;第二节介绍实时计算的应用场景;第三节介绍实时计算常见的架构;第四节是实时数仓解决方案。 一、实时计算 实时计算一般都是针对海量数据进行的,并且要求为秒级。由于大数据兴起之初,Hadoop并没有给出实时计算解决方案,随后Storm,
阅读全文
posted @ 2021-07-12 09:53 五分钟学大数据
阅读(10330)
评论(1)
推荐(3)
2021年7月11日
MPP大规模并行处理架构详解
摘要: 面试官:说下你知道的MPP架构的计算引擎? 这个问题不少小伙伴在面试时都遇到过,因为对MPP这个概念了解较少,不少人都卡壳了,但是我们常用的大数据计算引擎有很多都是MPP架构的,像我们熟悉的Impala、ClickHouse、Druid、Doris等都是MPP架构。 采用MPP架构的很多OLAP引擎
阅读全文
posted @ 2021-07-11 16:33 五分钟学大数据
阅读(4307)
评论(0)
推荐(1)
2021年7月3日
精选Hive高频面试题11道,附答案详细解析(好文收藏)
摘要: 1. hive内部表和外部表的区别 未被external修饰的是内部表,被external修饰的为外部表。 本文首发于公众号【五分钟学大数据】,关注公众号,获取最新大数据技术文章 区别: 内部表数据由Hive自身管理,外部表数据由HDFS管理; 内部表数据存储的位置是hive.metastore.w
阅读全文
posted @ 2021-07-03 15:40 五分钟学大数据
阅读(842)
评论(0)
推荐(0)
上一页
1
2
3
4
5
6
7
8
下一页
公告