摘要:
一、需求分析 需求:在给定的文本文件中统计输出每一个单词出现的总次数 SEVENTEEN.txt文本内容如下: say the name seventeen hello we are seventeen nice to meet you you very nice 按照MapReduce编程规范,分 阅读全文
posted @ 2024-09-18 17:00
一年都在冬眠
阅读(47)
评论(0)
推荐(0)
摘要:
一、定义 MapReduce是一个分布式运算程序的编程框架,是用户开发“基于Hadoop的数据分析应用”的核心框架 MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个Hadoop集群上 二、优缺点 优点 描述 易于编程 它简单的实现一些接 阅读全文
posted @ 2024-09-18 14:44
一年都在冬眠
阅读(120)
评论(0)
推荐(0)
摘要:
一、DataNode工作机制 1、一个数据块在DataNode上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度,块数据的校验和,以及时间戳 2、DataNode启动后向NameNode注册,通过后,周期性(6小时)的向NameNode上报所有的块信息 3、心跳是每 阅读全文
posted @ 2024-09-18 14:19
一年都在冬眠
阅读(97)
评论(0)
推荐(0)
摘要:
一、NN和2NN工作机制 1、NameNode中的元数据存储在哪里? 存储在NameNode节点的磁盘中会导致效率过低,因为经常需要进行随机访问和响应客户请求;存储在内存中,一旦元数据丢失,整个集群就无法工作,也不合适。因此产生了在磁盘中备份元数据的FsImage。 引入Edits文件(只进行追加操 阅读全文
posted @ 2024-09-18 14:05
一年都在冬眠
阅读(140)
评论(0)
推荐(0)
摘要:
HDFS读写数据流程 一、写数据流程 1、客户端通过Distributed FileSystem模块向NameNode请求上传文件,NameNode检查目标文件是否已存在,父目录是否存在 2、NameNode返回是否可以上传 3、客户端请求第一个Block上传到哪几个DataNode服务器上 4、N 阅读全文
posted @ 2024-09-18 09:36
一年都在冬眠
阅读(390)
评论(0)
推荐(0)

浙公网安备 33010602011771号