随笔分类 - Hadoop
Hadoop之HDFS
摘要:MapReduce的切片机制 在Map阶段会将读取进来的数据进行逻辑切片进行处理。此切片与HDFS的切块不同,HDFS的切块是将文件按照block块的形式保存起来,mr则是将文件按照切片数进行计算默认切片大小等于块大小,也就是128m切一片,切片数与MapTask的数量是一致的,MapTask的并行
阅读全文
摘要:NameNode工作机制 nn负责管理块的元数据信息,元数据信息为fsimage和edits预写日志,通过edits预写日志来更新fsimage中的元数据信息,每次namenode启动时,都会将磁盘中的fsimage读入到内存当达到snn的checkpoint标准时(一小时或100W次操作),由sc
阅读全文
摘要:hdfs上传流程 首先客户端向nn请求上传文件、nn经过检查回应客户端是否可以上传、客户端得到同意后向nn请求上传第一块文件的dn、nn返回给客户端dn的地址、客户端与其中一个dn1建立连接然后dn1再与dn2连接,dn2再与dn3进行连接、dn3,dn2,dn1,客户端逐级回应连接成功、客户端开始
阅读全文
摘要:HDFS是一个分布式文件存储系统,前身来自于Google发布的大数据三驾马车之一GFS (Google File System)。 HDFS的优点: 1、高容错 hdfs具有很高的容错性,数据自动保存为多个副本,默认为三副本机制,还能够通过自己自定义副本数来提高容错性。 当某个节点的副本丢失后,可以
阅读全文