随笔分类 -  Hadoop

 
云计算 学习笔记(4) HDFS 简介及体系结构
摘要:HDFS全称是Hadoop Distributed System。HDFS是为以流的方式存取大文件而设计的。适用于几百MB,GB以及TB,并写一次读多次的场合。而对于低延时数据访问、大量小文件、同时写和任意的文件修改,则并不是十分适合。 目前HDFS支持的使用接口除了Java的还有,Thrift、C、FUSE、WebDAV、HTTP等。HDFS是以block-sized chunk组织其文件内容的,默认的block大小为64MB,对于不足64MB的文件,其会占用一个block,但实际上不用占用实际硬盘上的64MB,这可以说是HDFS是在文件系统之上架设的一个中间层。之所以将默认的block大. 阅读全文
posted @ 2012-12-02 23:16 完美de幸福 阅读(657) 评论(0) 推荐(0)
云计算 学习笔记(3) Google 集群系统 & Hadoop
摘要:Google 分布式系统与Hadoop名称Google Hadoop分布式文件系统Google file system(GFS)Hadoop Distributed File System(HDFS )分布式计算Google MapReduceMapReduce分布式存储Google BigTableHBase分布式协同服务Google ChubbyZooKeeper数据仓库工具Hive其他Avro,Hadoop Common,Pig,Chukwa,CloudBASE等分布式文件系统术语对比术语GFS中的术语HDFS中的术语术语解释主控服务器MasterNameNode整个文件系统的大脑,它提 阅读全文
posted @ 2012-11-21 23:26 完美de幸福 阅读(1842) 评论(0) 推荐(0)
云计算 学习笔记(1) Hadoop简介
摘要:Hadoop 简介Hadoop 是一个开源的可运行于大规模集群上的分布式并行编程框架,由于分布式存储对于分布式编程来说是必不可少的,这个框架中还包含了一个分布式文件系统 HDFS( Hadoop Distributed File System )。也许到目前为止,Hadoop 还不是那么广为人知,其最新的版本号也仅仅是 0.16,距离 1.0 似乎都还有很长的一段距离,但提及 Hadoop 一脉相承的另外两个开源项目 Nutch 和 Lucene ( 三者的创始人都是 Doug Cutting ),那绝对是大名鼎鼎。Lucene 是一个用 Java 开发的开源高性能全文检索工具包,它不是一个完 阅读全文
posted @ 2012-11-15 23:04 完美de幸福 阅读(877) 评论(0) 推荐(0)