随笔分类 -  hadoop

摘要:1.1 YARN基本架构 YARN是Hadoop2.0中的资源管理系统,它的基本设计思想是将MRv1中的JobTracker拆分成了两个独立的服务:一个全局的资源管理器ResourceManager和每个应用程序特有的ApplicationMaster。其中ResourceManager负责整个系统的资源管理和分配,而ApplicationMaster负责单个应用程序的管理。 1.2 ... 阅读全文
posted @ 2016-09-27 17:11 张有路 阅读(196) 评论(0) 推荐(0)
摘要:参考:http://www.cnblogs.com/linuxprobe/p/5594431.html 1.初识HDFS HDFS作为一个分布式文件系统,具有高容错的特点,它可以部署在廉价的通用硬件上,提供高吞吐率的数据访问(吞吐率:是对一个系统和它的部件处理传输数据请求能力的总体评价),适合那些需要处理海量数据集的应用程序。 1.1 HDFS主要特性 支持超大文件。超大文件... 阅读全文
posted @ 2016-09-27 10:55 张有路 阅读(194) 评论(0) 推荐(0)
摘要:地址:http://www.cnblogs.com/xia520pi/archive/2012/06/04/2534533.html 阅读全文
posted @ 2016-09-22 14:49 张有路 阅读(126) 评论(0) 推荐(0)
摘要:1.概念 Mapreduce是一个计算框架,表现形式是有个输入(input),mapreduce操作这个输入,通过本身定义好的计算模型,得到一个输出(output),也就是我们需要的结果。 在运行一个mapreduce任务的时候,任务过程被分为2个阶段:map和reduce阶段,每个阶段都是用键值对(key/value)作为输入和输出。 2.mapreduce实例package org... 阅读全文
posted @ 2016-09-22 13:16 张有路 阅读(192) 评论(0) 推荐(0)
摘要:查看api:http://hadoop.apache.org/docs/stable/api/ 若能获取相应的name属性,返回name值,若无法获得,返回null. 若能获取相应的name属性,返回name值,若无法获得,返回nulldefaultValue. 阅读全文
posted @ 2016-09-21 09:28 张有路 阅读(2174) 评论(0) 推荐(0)