会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
shihongpin
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
5
6
7
8
下一页
2024年9月20日
Spark(一)概述
摘要: 基本概念 Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎 Spark vs Hadoop Spark和Hadoop的根本差异是多个作业之间的数据通信问题:Spark多个作业之间数据通信是基于内存,而Hadoop是基于磁盘 Hadoop Spark 类型 分布式基础平台, 包含计算,
阅读全文
posted @ 2024-09-20 09:49 一年都在冬眠
阅读(79)
评论(0)
推荐(0)
2024年9月19日
Hadoop(二十二)CM Kerberos基本原理
摘要: 基于CDP的CM维护Hadoop生态组件 CDP Cloudera Data Platform(CDP)是Cloudera公司推出的一个全面的数据平台,它支持在多云环境中部署和管理数据 CDP提供了一种统一的方法来管理数据和分析工作负载,无论是在本地、公有云还是私有云环境中 CDP包括多种服务和工具
阅读全文
posted @ 2024-09-19 15:07 一年都在冬眠
阅读(101)
评论(0)
推荐(0)
Hadoop(二十一)Kafka工作原理
摘要: 基本概念 Kafka是一个分布式实时数据流平台,可独立部署在单台服务器上,也可部署在多台服务器上构成集群。它提供了发布与订阅功能,用户可以发送数据到Kafka集群中,也可以从Kafka集群中读取数据 1、代理(Broker) 在Kafka集群中,一个Kafka进程(Kafka进程又称为 Kafka实
阅读全文
posted @ 2024-09-19 14:33 一年都在冬眠
阅读(104)
评论(0)
推荐(0)
Hadoop(二十)Yarn工作原理
摘要: Yarn资源调度器 Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce等运算程序则相当于运行于操作系统之上的应用程序 一、基础架构 YARN主要由ResourceManager、NodeManager、ApplicationMaster
阅读全文
posted @ 2024-09-19 13:48 一年都在冬眠
阅读(103)
评论(0)
推荐(0)
Hadoop(十九)MapReduce OutputFormat 数据压缩
摘要: OutputFormat OutputFormat是MapReduce输出的基类,所有实现MapReduce输出都实现了OutputFormat接口 几种常见的OutputFormat实现类:NullOutputFormat、MapFileOutputFormat、TextOutputFormat等
阅读全文
posted @ 2024-09-19 11:00 一年都在冬眠
阅读(48)
评论(0)
推荐(0)
Hadoop(十八)MapReduce Shuffle机制
摘要: MapReduce工作流程 上面的流程是整个MapReduce最全工作流程,但是Shuffle过程只是从第7步开始到第16步结束,具体Shuffle过程详解,如下: MapTask收集map()方法输出的kv对,放到内存缓冲区中 从内存缓冲区不断溢出本地磁盘文件,可能会溢出多个文件 多个溢出文件会被
阅读全文
posted @ 2024-09-19 10:35 一年都在冬眠
阅读(308)
评论(0)
推荐(0)
Hadoop(十七)MapReduce 切片机制 InputFormat
摘要: 切片与MapTask并行度决定机制 MapTask的并行度决定Map阶段的任务处理并发度,进而影响到整个Job的处理速度 数据块:Block是HDFS物理上把数据分成一块一块,数据块是HDFS存储数据单位 数据切片:数据切片只是在逻辑上对输入进行分片,并不会在磁盘上将其切分成片进行存储,数据切片是M
阅读全文
posted @ 2024-09-19 10:00 一年都在冬眠
阅读(115)
评论(0)
推荐(0)
Hadoop(十六)MapReduce 序列化
摘要: 一、概述 1、什么是序列化 序列化就是把内存中的对象,转换成字节序列(或其他数据传输协议)以便于存储到磁盘(持久化)和网络传输 反序列化就是将收到字节序列(或其他数据传输协议)或者是磁盘的持久化数据,转换成内存中的对象。 2、为什么要序列化 数据持久化:序列化允许将内存中的数据结构保存到文件或数据库
阅读全文
posted @ 2024-09-19 09:12 一年都在冬眠
阅读(43)
评论(0)
推荐(0)
2024年9月18日
Hadoop(十五)项目考核 WordCount案例
摘要: 一、需求分析 需求:在给定的文本文件中统计输出每一个单词出现的总次数 SEVENTEEN.txt文本内容如下: say the name seventeen hello we are seventeen nice to meet you you very nice 按照MapReduce编程规范,分
阅读全文
posted @ 2024-09-18 17:00 一年都在冬眠
阅读(47)
评论(0)
推荐(0)
Hadoop(十四)MapReduce概述
摘要: 一、定义 MapReduce是一个分布式运算程序的编程框架,是用户开发“基于Hadoop的数据分析应用”的核心框架 MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个Hadoop集群上 二、优缺点 优点 描述 易于编程 它简单的实现一些接
阅读全文
posted @ 2024-09-18 14:44 一年都在冬眠
阅读(120)
评论(0)
推荐(0)
上一页
1
2
3
4
5
6
7
8
下一页
公告