随笔分类 -  HDFS

摘要:一.Hdfs简介 hdfs是一个文件系统,用于存储文件,通过统一的命名空间——目录树来定位文件,并且是分布式的,由很多服务器联合起来实现其功能,集群中的服务器各自负责角色; 重要特征: 1.HDFS中的文件在物理上是分块存储(block),块的大小可以通过配置参数( dfs.blocksize)来规 阅读全文
posted @ 2017-09-12 14:12 songjy2116 阅读(251) 评论(0) 推荐(0)
摘要:Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访 阅读全文
posted @ 2017-09-12 14:10 songjy2116 阅读(1078) 评论(0) 推荐(0)
摘要:为什么我们需要HDFS 文件系统由三部分组成:与文件管理有关软件、被管理文件以及实施文件管理所需数据结构。 既然读取一块磁盘的所有数据需要很长时间,写入更是需要更长时间(写入时间一般是读取时间的3倍)。我们需要一个巨大文件难道得换传输速度10GB/S的磁盘(现在没有这样的磁盘),而且即使有文件为1Z 阅读全文
posted @ 2017-09-12 14:09 songjy2116 阅读(189) 评论(0) 推荐(0)
摘要:使用docker搭建部署hadoop分布式集群 在网上找了很长时间都没有找到使用docker搭建hadoop分布式集群的文档,没办法,只能自己写一个了。 一:环境准备: 1:首先要有一个Centos7操作系统,可以在虚拟机中安装。 2:在centos7中安装docker,docker的版本为1.8. 阅读全文
posted @ 2017-09-10 00:30 songjy2116 阅读(717) 评论(0) 推荐(0)
摘要:一、hadoop简介 1、hadoop的初衷是为了解决Nutch的海量数据爬取和存储的需要,HDFS来源于google的GFS,MapReduce来源于Google的MapReduce,HBase来源于Google的BigTable.hadoop后被引入Apache基金会. 2、hadoop两大核心 阅读全文
posted @ 2017-09-09 21:56 songjy2116 阅读(341) 评论(0) 推荐(0)