摘要: yarn 的学习路线,参考董的博客:http://dongxicheng.org/recommend/hadoop2.0的进展和hadoop需要注意的东西参考:http://dongxicheng.org/mapreduce-nextgen/hadoop-2-new-feature-and-development/ HDFS进展 (1)对异构存储媒介的支持 (2)DataNode Cache(3)HDFS ACL(4)Rolling upgrade changes YARN/MRv2进展(1)Application History Server(2)对long-running applicat 阅读全文
posted @ 2014-01-25 11:00 飘荡小黄鸭 阅读(114) 评论(0) 推荐(0) 编辑
摘要: Hadoop中有自身的灾难恢复系统,但还有两个点重要的节点失效容易使集群失效,主要包括 Namenode ,ResourceManager其中NN的失效可以通过HA NN 和Federation 来改进NN的失效问题可以通过ResourceManger 暂时还未解决 阅读全文
posted @ 2014-01-25 10:31 飘荡小黄鸭 阅读(267) 评论(0) 推荐(0) 编辑
摘要: 一、背景天云趋势在2012年下半年开始为某大型国有银行的历史交易数据备份及查询提供基于Hadoop的技术解决方案,由于行业的特殊性,客户对服务的可用性有着非常高的要求,而HDFS长久以来都被单点故障的问题所困扰,直到Apache Hadoop在2012年5月发布了2.0的alpha版本,其中MRv2还很不成熟,可HDFS的新功能已经基本可用,尤其是其中的的High Availability(以下简称HA)和Federation。Cloudera也于7月制作了CDH4.0.1,包含了Hadoop 2.0的诸多新功能和组件,于是我们就基于CDH4.0.1进行了HA和Federation的测试。二、 阅读全文
posted @ 2014-01-21 17:29 飘荡小黄鸭 阅读(178) 评论(0) 推荐(0) 编辑
摘要: 具体参考:http://f.dataguru.cn/thread-173335-1-1.htmlhttp://www.infoq.com/cn/articles/hadoop-2-0-namenode-ha-federation-practice-zhhttp://mmicky.blog.163.com/blog/static/150290154201401812127758/ 阅读全文
posted @ 2014-01-21 16:44 飘荡小黄鸭 阅读(160) 评论(0) 推荐(0) 编辑
摘要: 在计算机技术中,虚拟化(Virtualization) 是将计算机物理资源如服务器、网络、内存及存储等予以抽象、转换后呈现出来,使用户可以比原本的组态更好的方式来应用这些资源。这些资源的新虚拟部份是不 受现有资源的架设方式,地域或物理组态所限制。一般所指的虚拟化资源包括计算能力和资料储存。 需要注意的是虚拟化并不等同于云计算,虚拟化只是庞大的云计算生态圈中一个子应用。Hypervisor 在介绍具体的虚拟化技术之前,我们首先要来说一说计算机是如何进行虚拟化的。其中不得不提Hypervisor: Hypervisor是用来创建和运行虚拟机的软件,固件或硬件。运行Hypervisor的电... 阅读全文
posted @ 2014-01-21 10:52 飘荡小黄鸭 阅读(699) 评论(0) 推荐(0) 编辑
摘要: 读文件 读文件时内部工作机制参看下图: 客户端通过调用FileSystem对象(对应于HDFS文件系统,调用DistributedFileSystem对象)的open()方法来打开文件(也即图中的第一步),DistributedFileSystem通过RPC(Remote Procedure Call)调用询问NameNode来得到此文件最开始几个block的文件位置(第二步)。对每一个block来说,namenode返回拥有此block备份的所有namenode的地址信息(按集群的拓扑网络中与客户端距离的远近排序,关于在Hadoop集群中如何进行网络拓扑请看下面介绍)。如果客户端本身就是.. 阅读全文
posted @ 2014-01-20 10:12 飘荡小黄鸭 阅读(150) 评论(0) 推荐(0) 编辑
摘要: 参考:http://www.cnblogs.com/littlesuccess/p/3466109.html使用 AMBAIR安装 和使用 HDP安装 阅读全文
posted @ 2014-01-17 16:26 飘荡小黄鸭 阅读(114) 评论(0) 推荐(0) 编辑
摘要: 具体参考:http://hadoop.apache.org/docs/r2.2.0/hadoop-yarn/hadoop-yarn-site/HDFSHighAvailabilityWithNFS.html在Hadoop2.0.0之前,NameNode(NN)在HDFS集群中存在单点故障(single point of failure),每一个集群中存在一个NameNode,如果NN所在的机器出现了故障,那么将导致整个集群无法利用,直到NN重启或者在另一台主机上启动NN守护线程。主要在两方面影响了HDFS的可用性:(1)、在不可预测的情况下,如果NN所在的机器崩溃了,整个集群将无法利用,直到N 阅读全文
posted @ 2014-01-17 15:55 飘荡小黄鸭 阅读(1005) 评论(0) 推荐(0) 编辑
摘要: 好看的报表https://github.com/ecomfe/echarts报表种类http://www.cnblogs.com/CareySon/category/343830.html 阅读全文
posted @ 2014-01-16 09:48 飘荡小黄鸭 阅读(174) 评论(0) 推荐(0) 编辑
摘要: Hortworks Hadoop生态圈简介Hortworks 作为Apache Hadoop2.0社区的开拓者,构建了一套自己的Hadoop生态圈,包括存储数据的HDFS,资源管理框架YARN,计算模型MAPREDUCE、TEZ等,服务于数据平台的PIG、HIVE&HCATALOG、HBASE,HDFS存储的数据通过FLUME和SQOOP导入导出,集群监控AMBARI、数据生命周期管理FALCON、作业调度系统OOZIE。本文简要介绍了各个系统的概念。另外大多系统都通过Apache开源,读者可以自行下载试用。Hortworks Hadoop生态圈架构如图1所示。图1 Hortworks 阅读全文
posted @ 2014-01-15 18:01 飘荡小黄鸭 阅读(2378) 评论(0) 推荐(0) 编辑