文章分类 -  Hadoop架构再探讨

使用PIG Latin 进行编程
摘要:在这篇文章中,我们将介绍以下几点: 安装、配置PIG Latin PIG Latin关键字及数据类型 上载及下载数据至HDFS 载入文本数据 存储数据 排序 逐行排序 过滤 分组 剔除重复项 Cross Join Join 其他 安装、配置PIG Latin PIG 并不依赖安装路径,换句话说你可以 阅读全文

posted @ 2017-07-18 19:26 ostin 阅读(269) 评论(0) 推荐(0)

Hadoop生态系统中具有代表性的功能组件--Pig、Tez、Spark、Kafka
摘要:一、Pig--数据加工 1、Pig介绍 Pig是Hadoop生态系统的一个组件 提供了类似SQL的Pig Latin语言(包含Filter、GroupBy、Join、OrderBy等操作,同时也支持用户自定义函数) 允许用户通过编写简单的脚本来实现复杂的数据分析,而不需要编写复杂的MapReduce 阅读全文

posted @ 2017-07-17 22:20 ostin 阅读(2257) 评论(0) 推荐(0)

YARN框架与MapReduce1.0框架的对比分析和YARN的发展目标
摘要:一、YARN框架与MapReduce1.0框架的对比分析 从MapReduce1.0框架发展到YARN框架,客户端并没有发生变化,其大部分调用API及接口都保持兼容,因此,原来针对Hadoop1.0开发的代码不用做大的改动,就可以直接放到Hadoop2.0平台上运行 总体而言,YARN相对于MapR 阅读全文

posted @ 2017-07-15 17:32 ostin 阅读(1760) 评论(0) 推荐(0)

YARN工作流程
摘要:图 YARN的工作流程 步骤1:用户编写客户端应用程序,向YARN提交应用程序,提交的内容包括ApplicationMaster程序、启动ApplicationMaster的命令、用户程序等 步骤2:YARN中的ResourceManager负责接收和处理来自客户端的请求,为应用程序分配一个容器,在 阅读全文

posted @ 2017-07-15 17:24 ostin 阅读(221) 评论(0) 推荐(0)

新一代资源管理调度框架YARN
摘要:一、 MapReduce1.0的缺陷 (1)JobTracker存在单点故障(2)JobTracker“大包大揽”导致任务过重(任务多时内存开销大,上限4000节点)(3)容易出现内存溢出(分配资源只考虑MapReduce任务数,不考虑CPU、内存)(4)资源划分不合理(强制划分为slot ,包括M 阅读全文

posted @ 2017-07-15 16:58 ostin 阅读(668) 评论(0) 推荐(0)

HDFS2.0的新特性(HA、Federation)
摘要:一、HDFS HA Hadoop 1.0中SecondaryNameNode作用在于避免EditLog不断增大,导致NameNode从失败恢复时耗时太大的问题;另外起到冷备份的作用。但不能起到热备份的作用,所以还是不能解决NameNode单点故障问题。 名称节点保存信息:FsImage、EditLo 阅读全文

posted @ 2017-07-02 11:42 ostin 阅读(858) 评论(0) 推荐(0)

Hadoop的优化与发展
摘要:一、Hadoop的局限与不足 1、Hadoop1.0的核心组件(仅指MapReduce和HDFS,不包括Hadoop生态系统内的Pig、Hive、HBase等其他组件),主要存在以下不足:(1)、抽象层次低,需人工编码、 任何一个任务都需要编写Map和Reduce函数,编译、打包、运行来得到结果。即 阅读全文

posted @ 2017-07-01 17:21 ostin 阅读(506) 评论(0) 推荐(0)