云计算 学习笔记(4) HDFS 简介及体系结构
摘要:HDFS全称是Hadoop Distributed System。HDFS是为以流的方式存取大文件而设计的。适用于几百MB,GB以及TB,并写一次读多次的场合。而对于低延时数据访问、大量小文件、同时写和任意的文件修改,则并不是十分适合。 目前HDFS支持的使用接口除了Java的还有,Thrift、C、FUSE、WebDAV、HTTP等。HDFS是以block-sized chunk组织其文件内容的,默认的block大小为64MB,对于不足64MB的文件,其会占用一个block,但实际上不用占用实际硬盘上的64MB,这可以说是HDFS是在文件系统之上架设的一个中间层。之所以将默认的block大.
阅读全文
云计算 学习笔记(3) Google 集群系统 & Hadoop
摘要:Google 分布式系统与Hadoop名称Google Hadoop分布式文件系统Google file system(GFS)Hadoop Distributed File System(HDFS )分布式计算Google MapReduceMapReduce分布式存储Google BigTableHBase分布式协同服务Google ChubbyZooKeeper数据仓库工具Hive其他Avro,Hadoop Common,Pig,Chukwa,CloudBASE等分布式文件系统术语对比术语GFS中的术语HDFS中的术语术语解释主控服务器MasterNameNode整个文件系统的大脑,它提
阅读全文
云计算 学习笔记(2) 分布式的一些基础概念
摘要:分布式系统分布式系统(distributed system)是建立在网络之上的软件系统。处理各项协助的任务,然后整合出结果。分布式计算分布式计算是一种把需要进行大量计算的工程数据分区成小块,由多台计算机分别计算,在上传运算结果后,将结果统一合并得出数据结论的科学。分布式文件系统就是分布式+文件系统;从文件系统的客户使用的角度来看,它就是一个标准的文件系统,提供了一系列API,由此进行文件或目录的创建、移动、删除,以及对文件的读写等操作;从内部实现来看,分布式的系统则不再和普通文件系统一样负责管理本地磁盘,它的文件内容和目录结构都不是存储在本地磁盘上,而是通过网络传输到远端系统上。并且,同一个文
阅读全文
云计算 学习笔记(1) Hadoop简介
摘要:Hadoop 简介Hadoop 是一个开源的可运行于大规模集群上的分布式并行编程框架,由于分布式存储对于分布式编程来说是必不可少的,这个框架中还包含了一个分布式文件系统 HDFS( Hadoop Distributed File System )。也许到目前为止,Hadoop 还不是那么广为人知,其最新的版本号也仅仅是 0.16,距离 1.0 似乎都还有很长的一段距离,但提及 Hadoop 一脉相承的另外两个开源项目 Nutch 和 Lucene ( 三者的创始人都是 Doug Cutting ),那绝对是大名鼎鼎。Lucene 是一个用 Java 开发的开源高性能全文检索工具包,它不是一个完
阅读全文