摘要: 公众号(五分钟学大数据)已推出大数据面试系列文章—五分钟小面试,此系列文章将会深入研究各大厂笔面试真题,并根据笔面试题扩展相关的知识点,助力大家都能够成功入职大厂! 大数据笔面试系列文章分为两种类型:混合型(即一篇文章中会有多个框架的知识点—融会贯通);专项型(一篇文章针对某个框架进行深入解析—专项 阅读全文
posted @ 2021-03-04 09:24 五分钟学大数据 阅读(254) 评论(0) 推荐(0) 编辑
摘要: 本公众号(五分钟学大数据)将推出大数据面试系列文章—五分钟小面试,此系列文章将会深入研究各大厂笔面试真题,并根据笔面试题扩展相关的知识点,助力大家都能够成功入职大厂! 大数据笔面试系列文章分为两种类型:混合型(即一篇文章中会有多个框架的知识点—融会贯通);专项型(一篇文章针对某个框架进行深入解析—专 阅读全文
posted @ 2021-02-22 14:11 五分钟学大数据 阅读(870) 评论(0) 推荐(0) 编辑
摘要: 不懂hive中的explain,说明hive还没入门,学会explain,能够给我们工作中使用hive带来极大的便利! 理论 本节将介绍 explain 的用法及参数介绍 HIVE提供了EXPLAIN命令来展示一个查询的执行计划,这个执行计划对于我们了解底层原理,hive 调优,排查数据倾斜等很有帮 阅读全文
posted @ 2021-02-20 20:43 五分钟学大数据 阅读(5698) 评论(0) 推荐(4) 编辑
摘要: 1. HDFS概述 Hadoop 分布式系统框架中,首要的基础功能就是文件系统,在 Hadoop 中使用 FileSystem 这个抽象类来表示我们的文件系统,这个抽象类下面有很多子实现类,究竟使用哪一种,需要看我们具体的实现类,在我们实际工作中,用到的最多的就是HDFS(分布式文件系统)以及Loc 阅读全文
posted @ 2021-02-09 12:09 五分钟学大数据 阅读(1256) 评论(1) 推荐(0) 编辑
摘要: 风起云涌的大数据战场上,早已迎百花齐放繁荣盛景,各大企业加速跑向“大数据时代”。而我们作为大数据的践行者,在这个“多智时代”如何才能跟上大数据的潮流,把握住大数据的发展方向。 前言 大数据起源于2000年左右,也就是互联网高速发展阶段。经过几年的发展,到2008年 Hadoop 成为 Apache 阅读全文
posted @ 2021-02-03 20:08 五分钟学大数据 阅读(1182) 评论(0) 推荐(3) 编辑
摘要: 超详细,纯干货! 阅读全文
posted @ 2021-02-01 15:05 五分钟学大数据 阅读(1739) 评论(0) 推荐(0) 编辑
摘要: Spark简介 Apache Spark是用于大规模数据处理的统一分析引擎,基于内存计算,提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性,允许用户将Spark部署在大量硬件之上,形成集群。 Spark源码从1.x的40w行发展到现在的超过100w行,有1400多位大牛贡献了代码 阅读全文
posted @ 2021-01-29 09:53 五分钟学大数据 阅读(2637) 评论(4) 推荐(1) 编辑
摘要: Checkpoint介绍 checkpoint机制是Flink可靠性的基石,可以保证Flink集群在某个算子因为某些原因(如 异常退出)出现故障时,能够将整个应用流图的状态恢复到故障之前的某一状态,保 证应用流图状态的一致性。Flink的checkpoint机制原理来自“Chandy-Lamport 阅读全文
posted @ 2021-01-27 20:12 五分钟学大数据 阅读(1162) 评论(0) 推荐(0) 编辑
摘要: 深入理解Flink底层原理 阅读全文
posted @ 2021-01-26 11:36 五分钟学大数据 阅读(1176) 评论(0) 推荐(0) 编辑
摘要: 前言 Flink 是流式的、实时的 计算引擎 上面一句话就有两个概念,一个是流式,一个是实时。 流式:就是数据源源不断的流进来,也就是数据没有边界,但是我们计算的时候必须在一个有边界的范围内进行,所以这里面就有一个问题,边界怎么确定? 无非就两种方式,根据时间段或者数据量进行确定,根据时间段就是每隔 阅读全文
posted @ 2021-01-25 20:13 五分钟学大数据 阅读(1001) 评论(0) 推荐(0) 编辑