摘要: (1)分布式的运算程序往往需要分成至少 2 个阶段。(2)第一个阶段的 MapTask 并发实例,完全并行运行,互不相干。(3)第二个阶段的 ReduceTask 并发实例互不相干,但是他们的数据依赖于上一个阶段的所有MapTask 并发实例的输出。(4)MapReduce 编程模型只能包含一个 M 阅读全文
posted @ 2021-12-20 21:45 贱贱的小帅哥 阅读(37) 评论(0) 推荐(0) 编辑
摘要: (1) 客户端向NameNode发起RPC请求,来获取请求文件Block数据块所在的位置。 (2) NameNode检测元数据文件,会视情况返回Block块信息或者全部Block块信息,对于每个Block块,NameNode都会返回含有该Block副本的DataNode地址。 (3) 客户端会选取排 阅读全文
posted @ 2021-12-20 20:55 贱贱的小帅哥 阅读(114) 评论(0) 推荐(0) 编辑
摘要: HDFS中的文件在物理上是分块存储(Block),块的大小可以通过配置参数(dfs.blocksize)来规定,默认大小,2.X/3.X版本中是128M,1.X版本中是64M。128M指的是上限。 (1) 客户端发起文件上传请求,通过RPC(远程过程调用)与NameNode建立通讯。 (2) Nam 阅读全文
posted @ 2021-12-20 20:50 贱贱的小帅哥 阅读(137) 评论(0) 推荐(0) 编辑
摘要: 1)NameNode:就是Master,它是一个主管,管理者1 管理HDFS的名称空间;2 配置副本策略3 管理数据块(Block)映射信息4 处理客户端读写请求 2)DataNode:就是Slave,NameNode下达命令,DataNode执行实际的操作1 存储实际的数据块2 执行数据块的读/写 阅读全文
posted @ 2021-12-20 20:30 贱贱的小帅哥 阅读(72) 评论(0) 推荐(0) 编辑
摘要: HDFS定义:是一个文件系统,用于存储文件、通过目录树来定位文件,其次,他是分布式得,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。 HDFS主要使用场景:一次写入,多次读取。一个文件经过创建、写入和关闭之后就不需要改变。 HDFS特性: hdfs是一个分布式的文件系统,用于存储文件, 阅读全文
posted @ 2021-12-20 20:20 贱贱的小帅哥 阅读(40) 评论(0) 推荐(0) 编辑
摘要: MapReduce是一个分布式运算程序的编程框架,是用户开发“Hadoop的数据分析应用”的核心框架。MapReduce的思想核心是“分而治之”,适用于大量复杂的任务处理场景(大规模数据处理场景)。Map负责“分”,即把复杂的任务分解为若干个“简单的任务”来并行处理。可以进行拆分的前提是这些小任务可 阅读全文
posted @ 2021-12-20 16:05 贱贱的小帅哥 阅读(294) 评论(0) 推荐(0) 编辑
摘要: Apache Yarn(Yet Another Resource Negotiator的缩写)是hadoop集群资源管理器系统,是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台。而MapReduce等运算程序相当于运行于操作系统之上的应用程序。主要管理CPU和内存 阅读全文
posted @ 2021-12-20 16:03 贱贱的小帅哥 阅读(40) 评论(0) 推荐(0) 编辑
摘要: 1、概念HDFS,它是一个文件系统(window电脑磁盘是NTFS),用于存储文件,通过目录树来定位,其次它是分布式的,由很多服务器联合起来实现其功能,由很多服务器联合起来实现其功能HDFS的内部工作机制对客户端保持透明,客户端请求访问HDFS都是通过namenode申请来进行的HDFS的设计是个一 阅读全文
posted @ 2021-12-20 15:57 贱贱的小帅哥 阅读(369) 评论(0) 推荐(0) 编辑