随笔分类 -  hdfs

摘要:1.大量小文件影响 NameNode存储着文件系统的元数据,每个文件、目录、块大概有150字节的元数据,因此文件数量的限制也由NameNode内存大小决定,如果小文件过多则会造成NameNode的压力过大,且hdfs能存储的数据量也会变小 2.HAR文件方案 本质启动mr程序,需要启动yarn 用法 阅读全文
posted @ 2020-09-23 14:40 _蒲公英_ 阅读(407) 评论(0) 推荐(0)
摘要:1.NameNode与secondaryNameNode解析 NameNode主要负责集群中的元数据信息管理,而且元数据信息进场需要随机访问,因为元数据信息必高效的检索,那么保证NameNode快速检索呢?如何保证元数据的持久安全呢? 为了元数据信息的快速检索,那么我们就必须将元数据存放在内存当中, 阅读全文
posted @ 2020-09-23 00:06 _蒲公英_ 阅读(580) 评论(0) 推荐(0)
摘要:1.创建maven工程并导入jar包 jdk使用1.8、maven3.x版本 pom.xml添加一下内容 <repositories> <repository> <id>cloudera</id> <url>https://repository.cloudera.com/artifactory/cl 阅读全文
posted @ 2020-04-08 23:43 _蒲公英_ 阅读(412) 评论(0) 推荐(0)
摘要:1.hdfs的架构以及block块和副本机制 hdfs分布式文件系统也是一个主从架构,主节点是我们的namenode,负责整个集群以及维护集群的元数据信息。从节点是datanode,主要负责文件数据存储。 hdfs将所有的文件全部抽象为block块来进行存储,不管文件大小,全部一视同仁都是以bloc 阅读全文
posted @ 2020-04-07 18:30 _蒲公英_ 阅读(204) 评论(0) 推荐(0)
摘要:安全模式是hdfs所处的一种特殊状态,在这种状态下,文件系统只接受读数据的请求,而不接受删除修改等变更请求。在NameNode主节点启动时,HDFS首先进入安全模式,DataNode在启动的时候会向namenode汇报可用的block等状态,在整个系统达到安全标准时(最小副本数不小于99.9%,小于 阅读全文
posted @ 2020-04-06 23:49 _蒲公英_ 阅读(490) 评论(0) 推荐(0)
摘要:1.shell的操作命令 hdfs命令有两种风格:hadoop fs、hdfs dfs 两种命令均可使用,效果相同。 1)查看子命令 hadoop fs、hdfs dfs 2)如果查看hdfs或hadoop子命令信息 hdfs dfs -help shellCmd hadoop fs -help s 阅读全文
posted @ 2020-04-06 23:14 _蒲公英_ 阅读(975) 评论(0) 推荐(0)
摘要:1.分布式文件系统理解 使用低配置电脑配置成集群,存储管理单台电脑不能处理的大型文件。 直观理解三个臭皮匠,顶个诸葛亮。 很多磁盘加一起就可以装超多电影。 类似于你出5毛,我出5毛,我们一起凑一块。 2.hdfs优缺点 优点: a.高容错性:数据自动保存多个副本;通过增加副本的形式,提高容错性。一个 阅读全文
posted @ 2020-04-03 15:55 _蒲公英_ 阅读(1198) 评论(0) 推荐(0)