摘要:在这篇文章中,我们将介绍以下几点: 安装、配置PIG Latin PIG Latin关键字及数据类型 上载及下载数据至HDFS 载入文本数据 存储数据 排序 逐行排序 过滤 分组 剔除重复项 Cross Join Join 其他 安装、配置PIG Latin PIG 并不依赖安装路径,换句话说你可以
阅读全文
摘要:一、Pig--数据加工 1、Pig介绍 Pig是Hadoop生态系统的一个组件 提供了类似SQL的Pig Latin语言(包含Filter、GroupBy、Join、OrderBy等操作,同时也支持用户自定义函数) 允许用户通过编写简单的脚本来实现复杂的数据分析,而不需要编写复杂的MapReduce
阅读全文
摘要:一、YARN框架与MapReduce1.0框架的对比分析 从MapReduce1.0框架发展到YARN框架,客户端并没有发生变化,其大部分调用API及接口都保持兼容,因此,原来针对Hadoop1.0开发的代码不用做大的改动,就可以直接放到Hadoop2.0平台上运行 总体而言,YARN相对于MapR
阅读全文
摘要:图 YARN的工作流程 步骤1:用户编写客户端应用程序,向YARN提交应用程序,提交的内容包括ApplicationMaster程序、启动ApplicationMaster的命令、用户程序等 步骤2:YARN中的ResourceManager负责接收和处理来自客户端的请求,为应用程序分配一个容器,在
阅读全文
摘要:一、 MapReduce1.0的缺陷 (1)JobTracker存在单点故障(2)JobTracker“大包大揽”导致任务过重(任务多时内存开销大,上限4000节点)(3)容易出现内存溢出(分配资源只考虑MapReduce任务数,不考虑CPU、内存)(4)资源划分不合理(强制划分为slot ,包括M
阅读全文
摘要:一、HDFS HA Hadoop 1.0中SecondaryNameNode作用在于避免EditLog不断增大,导致NameNode从失败恢复时耗时太大的问题;另外起到冷备份的作用。但不能起到热备份的作用,所以还是不能解决NameNode单点故障问题。 名称节点保存信息:FsImage、EditLo
阅读全文
摘要:一、Hadoop的局限与不足 1、Hadoop1.0的核心组件(仅指MapReduce和HDFS,不包括Hadoop生态系统内的Pig、Hive、HBase等其他组件),主要存在以下不足:(1)、抽象层次低,需人工编码、 任何一个任务都需要编写Map和Reduce函数,编译、打包、运行来得到结果。即
阅读全文