摘要: Hortworks Hadoop生态圈简介Hortworks 作为Apache Hadoop2.0社区的开拓者,构建了一套自己的Hadoop生态圈,包括存储数据的HDFS,资源管理框架YARN,计算模型MAPREDUCE、TEZ等,服务于数据平台的PIG、HIVE&HCATALOG、HBASE,HDFS存储的数据通过FLUME和SQOOP导入导出,集群监控AMBARI、数据生命周期管理FALCON、作业调度系统OOZIE。本文简要介绍了各个系统的概念。另外大多系统都通过Apache开源,读者可以自行下载试用。Hortworks Hadoop生态圈架构如图1所示。图1 Hortworks 阅读全文
posted @ 2014-01-15 18:01 飘荡小黄鸭 阅读(2381) 评论(0) 推荐(0) 编辑
摘要: 深入剖析阿里巴巴云梯YARN集群发表于2013-12-04 18:21|5558次阅读| 来源《程序员》|9条评论| 作者沈洪《程序员》杂志2013年11月刊HadoopYARNMapReduceHDFS阿里巴巴云梯集群Spark摘要:阿里巴巴是国内使用Hadoop最早的公司之一,已开启了Apache Hadoop 2.0时代。本文将详细介绍阿里巴巴如何充分利用YARN的新特性来构建和完善其多功能分布式集群——云梯YARN集群。阿里巴巴作为国内使用Hadoop最早的公司之一,已开启了Apache Hadoop 2.0时代。阿里巴巴的Hadoop集群,即云梯集群,分为存储与计算两个模块,计算模块 阅读全文
posted @ 2014-01-15 18:00 飘荡小黄鸭 阅读(264) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2014-01-15 11:04 飘荡小黄鸭 阅读(133) 评论(0) 推荐(0) 编辑
摘要: 一、HDFS的基本概念1.1、数据块(block)HDFS(Hadoop Distributed File System)默认的最基本的存储单位是64M的数据块。和普通文件系统相同的是,HDFS中的文件是被分成64M一块的数据块存储的。不同于普通文件系统的是,HDFS中,如果一个文件小于一个数据块的大小,并不占用整个数据块存储空间。1.2、元数据节点(Namenode)和数据节点(datanode)元数据节点用来管理文件系统的命名空间其将所有的文件和文件夹的元数据保存在一个文件系统树中。这些信息也会在硬盘上保存成以下文件:命名空间镜像(namespace image)及修改日志(edit lo 阅读全文
posted @ 2014-01-15 10:54 飘荡小黄鸭 阅读(187) 评论(0) 推荐(0) 编辑