摘要: ​Hive是基于HDFS之上的数据仓库,它把所有的数据存储在HDFS中,Hive并没有专门的数据存储格式。当在Hive中创建了表,可以使用load语句将本地或者HDFS上的数据加载到表中,从而使用SQL语句进行分析和处理。 Hive的数据模型主要是指Hive的表结构,可以分为:内部表、外部表、分区表 阅读全文
posted @ 2025-12-16 10:11 赵渝强老师 阅读(8) 评论(0) 推荐(0)
摘要: ​Hive的分区表跟Oracle、MySQL中分区表的概念是一样的。当表上建立了分区,就会根据分区的条件从物理存储上将表中的数据进行分隔存储。而当执行查询语句时候,也会根据分区的条件扫描特定分区中的数据,从而避免全表扫描以提高查询的效率。Hive分区表中的每个分区将会在HDFS上创建一个目录,分区中 阅读全文
posted @ 2025-12-16 10:08 赵渝强老师 阅读(8) 评论(0) 推荐(0)
摘要: Spark RDD彼此之间会存在一定的依赖关系。依赖关系有两种不同的类型:窄依赖和宽依赖。 窄依赖:如果父RDD的每一个分区最多只被一个子RDD的分区使用,这样的依赖关系就是窄依赖; 宽依赖:如果父RDD的每一个分区被多个子RDD的分区使用,这样的依赖关系就是宽依赖。 map、filter、unio 阅读全文
posted @ 2025-12-16 10:04 赵渝强老师 阅读(8) 评论(0) 推荐(0)
摘要: ​由于Spark的计算是在内存中完成,因此任务执行的生命周期lineage(血统)越长,执行出错的概念就会越大。Spark通过检查点Checkpoint的方式,将RDD的状态写入磁盘进行持久化的保存从而支持容错。如果在检查点之后有节点出现了问题,Spark只需要从检查点的位置开始重新执行lineag 阅读全文
posted @ 2025-12-16 09:59 赵渝强老师 阅读(5) 评论(0) 推荐(0)
摘要: Spark RDD通过persist方法或cache方法可以将计算结果的缓存,但是并不是这两个方法被调用时立即缓存,而是触发后面的action时,该RDD才会被缓存在计算节点的内存中并供后面重用。下面是persist方法或cache方法的函数定义: def persist(): this.type 阅读全文
posted @ 2025-12-16 09:24 赵渝强老师 阅读(4) 评论(0) 推荐(0)
摘要: ​Kafka的生产者Producer将消息序列化之后,发送到对应主题的指定分区上。下图为展示了生产者的执行过程。 整个生产者客户端由两个线程协调运行,这两个线程分别为主线程和Sender线程。 点击这里查看视频讲解:【赵渝强老师】Kafka生产者的执行过程 1、主线程 在主线程中将创建一个Kafka 阅读全文
posted @ 2025-12-16 09:10 赵渝强老师 阅读(5) 评论(0) 推荐(0)
摘要: ​Kafka生产者有三种方式进行消息的发送,这三种方式区别在于对于消息是否正常到达的处理。 点击这里查看视频讲解:【赵渝强老师】Kafka生产者的消息发送方式 ​ 下面分别介绍生产者的这三种消息发送方式。 第一种:fire-and-forget 该方式把消息发送给Kafka的Broker之后不关心其 阅读全文
posted @ 2025-12-16 09:07 赵渝强老师 阅读(4) 评论(0) 推荐(0)
摘要: 消费者就是从Kafka集群消费数据的客户端,下图展示了一个消费者从主题中消费数据的模型。 上图展示的是单消费者模型。单消费者模型存在一些问题。如果Kafka上游生产的数据很快,超过了单个消费者的消费速度,那么就会导致数据堆积。 点击这里查看视频讲解:【赵渝强老师】Kafka的消费者与消费者组 为了解 阅读全文
posted @ 2025-12-16 09:02 赵渝强老师 阅读(12) 评论(0) 推荐(0)
摘要: ​Kafka消费者组中的消息消费模型有两种,即:推送模式(push)和拉取模式(pull)。 点击这里查看视频讲解:【赵渝强老师】Kafka消息的消费模式 一、消息的推送模式 这种消息的消费模式需要记录消费者的消费者状态。当把一条消息推送给消费者后,需要维护消息的状态。如果这条消息已经被消费将会对消 阅读全文
posted @ 2025-12-16 08:56 赵渝强老师 阅读(8) 评论(0) 推荐(0)
摘要: 在Hadoop HDFS的体系架构中,包含了三个组成部分。它们分别是:NameNode、DataNode和SecondaryNameNode。下图摘至Hadoop官方的网站,它说明了HDFS的体系架构。 点击这里查看视频讲解:【赵渝强老师】史上最详细:Hadoop HDFS的体系架构 一、NameN 阅读全文
posted @ 2025-12-16 08:53 赵渝强老师 阅读(11) 评论(0) 推荐(0)