Hadoop - 随笔分类 - MMarshall

MapReduce切片机制及执行流程

摘要：MapReduce的切片机制在Map阶段会将读取进来的数据进行逻辑切片进行处理。此切片与HDFS的切块不同，HDFS的切块是将文件按照block块的形式保存起来，mr则是将文件按照切片数进行计算默认切片大小等于块大小，也就是128m切一片，切片数与MapTask的数量是一致的，MapTask的并行阅读全文

posted @ 2022-03-04 00:03 MMarshall 阅读(501) 评论(0) 推荐(0)

HDFS成员的工作机制

摘要：NameNode工作机制 nn负责管理块的元数据信息，元数据信息为fsimage和edits预写日志，通过edits预写日志来更新fsimage中的元数据信息，每次namenode启动时，都会将磁盘中的fsimage读入到内存当达到snn的checkpoint标准时(一小时或100W次操作)，由sc 阅读全文

posted @ 2022-03-03 23:57 MMarshall 阅读(346) 评论(0) 推荐(0)

HDFS的上传下载流程

摘要：hdfs上传流程首先客户端向nn请求上传文件、nn经过检查回应客户端是否可以上传、客户端得到同意后向nn请求上传第一块文件的dn、nn返回给客户端dn的地址、客户端与其中一个dn1建立连接然后dn1再与dn2连接，dn2再与dn3进行连接、dn3，dn2，dn1，客户端逐级回应连接成功、客户端开始阅读全文

posted @ 2022-03-03 23:51 MMarshall 阅读(523) 评论(0) 推荐(0)

HDFS的优缺点

摘要：HDFS是一个分布式文件存储系统，前身来自于Google发布的大数据三驾马车之一GFS (Google File System)。 HDFS的优点： 1、高容错 hdfs具有很高的容错性，数据自动保存为多个副本，默认为三副本机制，还能够通过自己自定义副本数来提高容错性。当某个节点的副本丢失后，可以阅读全文

posted @ 2022-03-02 15:40 MMarshall 阅读(921) 评论(0) 推荐(0)

MMarshall

随笔分类 - Hadoop

公告