08 2021 档案
摘要:HDFS - 可靠性 HDFS 的可靠性主要有以下几点: 冗余副本策略 机架策略 心跳机制 安全模式 效验和 回收站 元数据保护 快照机制 1.冗余副本策略 可以在 hdfs-site.xml 中设置复制因子指定副本数量 所有数据块都可副本 DataNode 启动时,遍历本地文件系统,产生一份 HD
阅读全文
摘要:HDFS - 写文件 1.客户端将文件写入本地磁盘的 HDFS Client 文件中 2.当临时文件大小达到一个 block 大小时,HDFS client 通知 NameNode,申请写入文件 3.NameNode 在 HDFS 的文件系统中创建一个文件,并把该 block id 和要写入的 Da
阅读全文
摘要:MapReduce - 读取数据 通过InputFormat决定读取的数据的类型,然后拆分成一个个InputSplit,每个InputSplit对应一个Map处理,RecordReader读取InputSplit的内容给Map InputFormat 决定读取数据的格式,可以是文件或数据库等 功能
阅读全文

浙公网安备 33010602011771号