摘要: 本文目录: 一、消息队列 Apache Pulsar Pulsar 与 Kafka 对比 二、Kafka基础 三、Kafka架构及组件 四、Kafka集群操作 五、Kafka的JavaAPI操作 六、Kafka中的数据不丢失机制 七、Kafka配置文件说明 八、CAP理论 九、Kafka中的CAP机 阅读全文
posted @ 2021-10-27 14:15 五分钟学大数据 阅读(633) 评论(0) 推荐(1) 编辑
摘要: Hadoop 涉及的知识点如下图所示,本文将逐一讲解: 本文档参考了关于 Hadoop 的官网及其他众多资料整理而成,为了整洁的排版及舒适的阅读,对于模糊不清晰的图片及黑白图片进行重新绘制成了高清彩图。 目前企业应用较多的是Hadoop2.x,所以本文是以Hadoop2.x为主,对于Hadoop3. 阅读全文
posted @ 2021-10-25 11:14 五分钟学大数据 阅读(253) 评论(0) 推荐(0) 编辑
摘要: 本文目录: 一、HDFS 二、MapReduce 三、Yarn 四、Hadoop3.x 新特性 五、Hadoop 大厂面试真题解析 Hadoop 涉及的知识点如下图所示,本文将逐一讲解: 本文档参考了关于 Hadoop 的官网及其他众多资料整理而成,为了整洁的排版及舒适的阅读,对于模糊不清晰的图片及 阅读全文
posted @ 2021-10-22 10:18 五分钟学大数据 阅读(1726) 评论(2) 推荐(3) 编辑
摘要: 本文结构采用宏观着眼,微观入手,从整体到细节的方式剖析 Hive SQL 底层原理。第一节先介绍 Hive 底层的整体执行流程,然后第二节介绍执行流程中的 SQL 编译成 MapReduce 的过程,第三节剖析 SQL 编译成 MapReduce 的具体实现原理。 Hive Hive是什么?Hive 阅读全文
posted @ 2021-10-19 11:51 五分钟学大数据 阅读(991) 评论(0) 推荐(0) 编辑
摘要: 最近有读者私聊我时发现有不少应届生和初学者,他们在大数据怎么学,以及大数据怎么面试,简历怎么写等方面有很大的困扰,今天我们就来谈谈关于大数据的一些事。 写在前面:每个人的学习方法可能不一样,只有找到适合自己的才是最好的,以下这些只是我在学习大数据时的一些总结及经验,有不全面的地方还请各位大佬多包涵, 阅读全文
posted @ 2021-10-14 10:53 五分钟学大数据 阅读(3082) 评论(0) 推荐(4) 编辑
摘要: 此面试题来自牛客网友分享的字节跳动应届一面,面试时长一小时。 网友情况:985 本硕。 以下为面试过程中提问,岗位为大数据开发: 自我介绍+项目介绍 为什么用 kafka、sparkstreaming、hbase?有什么替代方案吗? 聊聊你觉得大数据的整个体系? 你看过 hdfs 源码?nn 的高可 阅读全文
posted @ 2021-09-30 16:21 五分钟学大数据 阅读(6921) 评论(0) 推荐(0) 编辑
摘要: 数仓建设真正的难点不在于数仓设计,而在于后续业务发展起来,业务线变的庞大之后的数据治理,而数据治理的范围非常广,包含数据本⾝的管理、数据安全、数据质量、数据成本等。在这么多治理内容中,大家想下最重要的治理是什么?当然是数据质量治理,因为数据质量是数据分析结论有效性和准确性的基础,也是这一切的前提。所 阅读全文
posted @ 2021-09-24 11:29 五分钟学大数据 阅读(2448) 评论(0) 推荐(2) 编辑
摘要: 作为一个数据人,是不是经常被各种名词围绕,是不是对其中很多概念认知模糊。有些词虽然只有一字之差,但是它们意思完全不同,今天我们就来了解下数仓建设及数据分析时常见的一些概念含义及它们之间的关系。 本文结构如下图所示: 一、数仓中常见概念解析 1. 实体 实体是指依附的主体,就是我们分析的一个对象,比如 阅读全文
posted @ 2021-09-15 18:05 五分钟学大数据 阅读(810) 评论(0) 推荐(0) 编辑
摘要: 作为一个数据人,是不是经常被各种名词围绕,是不是对其中很多概念认知模糊。有些词虽然只有一字之差,但是它们意思完全不同,今天我们就来了解下数仓建设及数据分析时常见的一些概念含义及它们之间的关系。 本文结构如下图所示: 一、数仓中常见概念解析 1. 实体 实体是指依附的主体,就是我们分析的一个对象,比如 阅读全文
posted @ 2021-09-09 13:49 五分钟学大数据 阅读(1293) 评论(0) 推荐(0) 编辑
摘要: 在 MapReduce 框架中, Shuffle 阶段是连接 Map 与 Reduce 之间的桥梁, Map 阶段通过 Shuffle 过程将数据输出到 Reduce 阶段中。由于 Shuffle 涉及磁盘的读写和网络 I/O,因此 Shuffle 性能的高低直接影响整个程序的性能。 Spark 也 阅读全文
posted @ 2021-08-16 15:26 五分钟学大数据 阅读(4348) 评论(0) 推荐(1) 编辑