摘要: 基于CDP的CM维护Hadoop生态组件 CDP Cloudera Data Platform(CDP)是Cloudera公司推出的一个全面的数据平台,它支持在多云环境中部署和管理数据 CDP提供了一种统一的方法来管理数据和分析工作负载,无论是在本地、公有云还是私有云环境中 CDP包括多种服务和工具 阅读全文
posted @ 2024-09-19 15:07 一年都在冬眠 阅读(101) 评论(0) 推荐(0)
摘要: 基本概念 Kafka是一个分布式实时数据流平台,可独立部署在单台服务器上,也可部署在多台服务器上构成集群。它提供了发布与订阅功能,用户可以发送数据到Kafka集群中,也可以从Kafka集群中读取数据 1、代理(Broker) 在Kafka集群中,一个Kafka进程(Kafka进程又称为 Kafka实 阅读全文
posted @ 2024-09-19 14:33 一年都在冬眠 阅读(104) 评论(0) 推荐(0)
摘要: Yarn资源调度器 Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce等运算程序则相当于运行于操作系统之上的应用程序 一、基础架构 YARN主要由ResourceManager、NodeManager、ApplicationMaster 阅读全文
posted @ 2024-09-19 13:48 一年都在冬眠 阅读(103) 评论(0) 推荐(0)
摘要: OutputFormat OutputFormat是MapReduce输出的基类,所有实现MapReduce输出都实现了OutputFormat接口 几种常见的OutputFormat实现类:NullOutputFormat、MapFileOutputFormat、TextOutputFormat等 阅读全文
posted @ 2024-09-19 11:00 一年都在冬眠 阅读(48) 评论(0) 推荐(0)
摘要: MapReduce工作流程 上面的流程是整个MapReduce最全工作流程,但是Shuffle过程只是从第7步开始到第16步结束,具体Shuffle过程详解,如下: MapTask收集map()方法输出的kv对,放到内存缓冲区中 从内存缓冲区不断溢出本地磁盘文件,可能会溢出多个文件 多个溢出文件会被 阅读全文
posted @ 2024-09-19 10:35 一年都在冬眠 阅读(308) 评论(0) 推荐(0)
摘要: 切片与MapTask并行度决定机制 MapTask的并行度决定Map阶段的任务处理并发度,进而影响到整个Job的处理速度 数据块:Block是HDFS物理上把数据分成一块一块,数据块是HDFS存储数据单位 数据切片:数据切片只是在逻辑上对输入进行分片,并不会在磁盘上将其切分成片进行存储,数据切片是M 阅读全文
posted @ 2024-09-19 10:00 一年都在冬眠 阅读(115) 评论(0) 推荐(0)
摘要: 一、概述 1、什么是序列化 序列化就是把内存中的对象,转换成字节序列(或其他数据传输协议)以便于存储到磁盘(持久化)和网络传输 反序列化就是将收到字节序列(或其他数据传输协议)或者是磁盘的持久化数据,转换成内存中的对象。 2、为什么要序列化 数据持久化:序列化允许将内存中的数据结构保存到文件或数据库 阅读全文
posted @ 2024-09-19 09:12 一年都在冬眠 阅读(43) 评论(0) 推荐(0)