2021 年 12月 20 日随笔档案 - 贱贱的小帅哥

2021年12月20日

摘要：（1）分布式的运算程序往往需要分成至少 2 个阶段。（2）第一个阶段的 MapTask 并发实例，完全并行运行，互不相干。（3）第二个阶段的 ReduceTask 并发实例互不相干，但是他们的数据依赖于上一个阶段的所有MapTask 并发实例的输出。（4）MapReduce 编程模型只能包含一个 M 阅读全文

posted @ 2021-12-20 21:45 贱贱的小帅哥阅读(54) 评论(0) 推荐(0)

HDFS读数据流程

摘要： (1) 客户端向NameNode发起RPC请求，来获取请求文件Block数据块所在的位置。 (2) NameNode检测元数据文件，会视情况返回Block块信息或者全部Block块信息，对于每个Block块，NameNode都会返回含有该Block副本的DataNode地址。 (3) 客户端会选取排阅读全文

posted @ 2021-12-20 20:55 贱贱的小帅哥阅读(135) 评论(0) 推荐(0)

HDFS写数据流程

摘要： HDFS中的文件在物理上是分块存储（Block）,块的大小可以通过配置参数（dfs.blocksize）来规定，默认大小，2.X/3.X版本中是128M，1.X版本中是64M。128M指的是上限。 (1) 客户端发起文件上传请求，通过RPC(远程过程调用)与NameNode建立通讯。 (2) Nam 阅读全文

posted @ 2021-12-20 20:50 贱贱的小帅哥阅读(208) 评论(0) 推荐(0)

HDFS组成架构

摘要： 1)NameNode:就是Master,它是一个主管,管理者1 管理HDFS的名称空间;2 配置副本策略3 管理数据块(Block)映射信息4 处理客户端读写请求 2)DataNode:就是Slave,NameNode下达命令,DataNode执行实际的操作1 存储实际的数据块2 执行数据块的读/写阅读全文

posted @ 2021-12-20 20:30 贱贱的小帅哥阅读(97) 评论(0) 推荐(0)

HDFS相关内容

摘要： HDFS定义：是一个文件系统，用于存储文件、通过目录树来定位文件，其次，他是分布式得，由很多服务器联合起来实现其功能，集群中的服务器有各自的角色。 HDFS主要使用场景：一次写入，多次读取。一个文件经过创建、写入和关闭之后就不需要改变。 HDFS特性： hdfs是一个分布式的文件系统，用于存储文件，阅读全文

posted @ 2021-12-20 20:20 贱贱的小帅哥阅读(81) 评论(0) 推荐(0)

MapReduce架构概述

摘要： MapReduce是一个分布式运算程序的编程框架，是用户开发“Hadoop的数据分析应用”的核心框架。MapReduce的思想核心是“分而治之”，适用于大量复杂的任务处理场景（大规模数据处理场景）。Map负责“分”，即把复杂的任务分解为若干个“简单的任务”来并行处理。可以进行拆分的前提是这些小任务可阅读全文

posted @ 2021-12-20 16:05 贱贱的小帅哥阅读(352) 评论(0) 推荐(0)

YARN架构概述

摘要： Apache Yarn（Yet Another Resource Negotiator的缩写）是hadoop集群资源管理器系统，是一个资源调度平台，负责为运算程序提供服务器运算资源，相当于一个分布式的操作系统平台。而MapReduce等运算程序相当于运行于操作系统之上的应用程序。主要管理CPU和内存阅读全文

posted @ 2021-12-20 16:03 贱贱的小帅哥阅读(70) 评论(0) 推荐(0)

HDFS架构概述

摘要： 1、概念HDFS，它是一个文件系统(window电脑磁盘是NTFS)，用于存储文件，通过目录树来定位，其次它是分布式的，由很多服务器联合起来实现其功能，由很多服务器联合起来实现其功能HDFS的内部工作机制对客户端保持透明，客户端请求访问HDFS都是通过namenode申请来进行的HDFS的设计是个一阅读全文

posted @ 2021-12-20 15:57 贱贱的小帅哥阅读(510) 评论(0) 推荐(0)

贱贱的小帅哥

公告