文章分类 -  HDFS

用于对海量数据存储的分布式文件系统
摘要:HDFS-HDFS其他功能(二) 一、快照管理 快照相当于对目录做一个备份。并不会立即复制所有文件,而是指向同一个文件。当写入发生时,才会产生新文件。 1)基本语法 (1)hdfs dfsadmin -allowSnapshot 路径 (功能描述:开启指定目录的快照功能) (2)hdfs dfsad 阅读全文

posted @ 2020-04-21 23:24 MissRong 阅读(482) 评论(0) 推荐(0) |

摘要:HDFS其他功能(一) 一、集群间数据拷贝 1)scp实现两个远程主机之间的文件复制 scp -r hello.txt root@bigdata111:/user/itstar/hello.txt // 推 push scp -r root@bigdata112:/user/itstar/hello 阅读全文

posted @ 2020-04-21 23:04 MissRong 阅读(572) 评论(0) 推荐(0) |

摘要:DataNode工作机制 一、NameNode & DataNode工作机制 1)一个数据块在datanode上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度,块数据的校验和,以及时间戳。 2)DataNode启动后向namenode注册,通过后,周期性(1小时) 阅读全文

posted @ 2020-04-16 15:19 MissRong 阅读(320) 评论(0) 推荐(0) |

摘要:Namenode多目录配置 1.NN多目录配置的作用 namenode的本地目录可以配置成多个,且每个目录存放内容相同,增加了可靠性。 2.具体配置如下: hdfs-site.xml <property> <name>dfs.namenode.name.dir</name> <value>file: 阅读全文

posted @ 2020-04-16 12:26 MissRong 阅读(1072) 评论(0) 推荐(0) |

摘要:集群安全模式操作 一、概述 Namenode启动时,首先将映像文件(fsimage)载入内存,并执行编辑日志(edits)中的各项操作。一旦在内存中成功建立文件系统元数据的映像,则创建一个新的fsimage文件和一个空的编辑日志。此时,namenode开始监听datanode请求。 但是此刻,nam 阅读全文

posted @ 2020-04-16 12:05 MissRong 阅读(281) 评论(0) 推荐(0) |

摘要:Secondary NameNode目录结构 Secondary NameNode用来监控HDFS状态的辅助后台程序,每隔一段时间获取HDFS元数据的快照。 在/opt/module/hadoop-2.8.4/data/dfs/namesecondary/current这个目录中查看Secondar 阅读全文

posted @ 2020-04-16 11:02 MissRong 阅读(250) 评论(0) 推荐(0) |

摘要:一、滚动编辑日志 正常情况HDFS文件系统有更新操作时,就会滚动编辑日志。也可以用命令强制滚动编辑日志。 1)滚动编辑日志(前提必须启动集群) [itstar@bigdata111 current]$ hdfs dfsadmin -rollEdits 举例: 原文件名edits_inprogress 阅读全文

posted @ 2020-04-16 10:49 MissRong 阅读(449) 评论(0) 推荐(0) |

摘要:NameNode工作机制(二)镜像文件和编辑日志文件 一、概念 namenode被格式化之后,将在/opt/module/hadoop-2.8.4/data/dfs/name/current目录中产生如下文件 注:只能在NameNode所在的节点才能找到此文件 可以执行find . -name ed 阅读全文

posted @ 2020-04-16 10:26 MissRong 阅读(208) 评论(0) 推荐(0) |

摘要:NameNode&Secondary NameNode工作机制* 1)第一阶段:namenode启动 (1)第一次启动namenode格式化后,创建fsimage和edits文件。如果不是第一次启动,直接加载编辑日志-行为手册(edits)和镜像文件(fsimage)到内存 路径:cd /opt/m 阅读全文

posted @ 2020-04-15 20:53 MissRong 阅读(280) 评论(0) 推荐(0) |

摘要:HDFS的数据流(三)一致性模型 1)debug调试如下代码 1 /** 2 * 一致性hflush 3 */ 4 @Test 5 public void hflushWriteFile() throws Exception { 6 //1.配置 7 Configuration conf = new 阅读全文

posted @ 2020-04-15 17:38 MissRong 阅读(322) 评论(0) 推荐(0) |

摘要:HDFS的数据流(二)HDFS读数据流程* 1)客户端向namenode请求下载文件,namenode通过查询元数据,找到文件块所在的datanode地址。 2)挑选一台datanode(就近原则,然后随机)服务器,请求读取数据。 3)datanode开始传输数据给客户端(从磁盘里面读取数据放入流, 阅读全文

posted @ 2020-04-15 17:32 MissRong 阅读(155) 评论(0) 推荐(0) |

摘要:HDFS的数据流(一)HDFS写数据流程* HDFS写数据流程 1.剖析文件写入 1)客户端向namenode请求上传文件,namenode检查目标文件是否已存在,父目录是否存在。 2)namenode返回是否可以上传。 3)客户端请求第一个 block上传到哪几个datanode服务器上。 4)n 阅读全文

posted @ 2020-04-15 17:19 MissRong 阅读(362) 评论(0) 推荐(0) |

摘要:HDFS-客户端操作(三)通过IO流操作HDFS 一、通过IO流上传文件到HDFS 1 /** 2 * 一、IO流方式上传到HDFS 3 */ 4 @Test 5 public void putFileToHDFSIO(){ 6 //1.创建配置信息对象 Configuration:配置 7 Con 阅读全文

posted @ 2020-04-14 14:32 MissRong 阅读(350) 评论(0) 推荐(0) |

摘要:HDFS-客户端操作(二)通过API操作HDFS 一、HDFS获取文件系统 详细代码 1 package Day01; 2 3 import org.apache.hadoop.conf.Configuration; 4 import org.apache.hadoop.fs.FileSystem; 阅读全文

posted @ 2020-04-14 11:25 MissRong 阅读(387) 评论(0) 推荐(0) |

摘要:HDFS客户端操作(一)IDEA环境准备 一、Maven配置 1.查看 因为之后用Idea写java代码需要。后期会用它来下载一些.jar包,是运行整个代码的依赖。 解压之后,conf是所有的配置,bin是目录。 这里找到Windows上的Maven中的conf文件夹-->settings.xml( 阅读全文

posted @ 2020-04-11 16:36 MissRong 阅读(743) 评论(0) 推荐(0) |

摘要:HFDS命令行操作 一、基本语法 bin/hadoop fs 具体命令 二、参数大全 bin/hadoop fs [-appendToFile <localsrc> ... <dst>] [-cat [-ignoreCrc] <src> ...] [-checksum <src> ...] [-ch 阅读全文

posted @ 2020-04-11 14:25 MissRong 阅读(651) 评论(0) 推荐(0) |

摘要:大数据技术之Hadoop-HDFS文件系统 一 、HDFS架构概念 1.概念 HDFS,它是一个文件系统,全称:Hadoop Distributed File System,用于存储文件通过目录树来定位文件;其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。 分布式存储 阅读全文

posted @ 2020-04-11 13:55 MissRong 阅读(315) 评论(0) 推荐(0) |

博客园  ©  2004-2025
浙公网安备 33010602011771号 浙ICP备2021040463号-3