Hadoop架构再探讨 - 文章分类 - ostin

使用PIG Latin 进行编程

摘要：在这篇文章中，我们将介绍以下几点：安装、配置PIG Latin PIG Latin关键字及数据类型上载及下载数据至HDFS 载入文本数据存储数据排序逐行排序过滤分组剔除重复项 Cross Join Join 其他安装、配置PIG Latin PIG 并不依赖安装路径，换句话说你可以阅读全文

posted @ 2017-07-18 19:26 ostin 阅读(269) 评论(0) 推荐(0)

Hadoop生态系统中具有代表性的功能组件--Pig、Tez、Spark、Kafka

摘要：一、Pig--数据加工 1、Pig介绍 Pig是Hadoop生态系统的一个组件提供了类似SQL的Pig Latin语言（包含Filter、GroupBy、Join、OrderBy等操作，同时也支持用户自定义函数）允许用户通过编写简单的脚本来实现复杂的数据分析，而不需要编写复杂的MapReduce 阅读全文

posted @ 2017-07-17 22:20 ostin 阅读(2257) 评论(0) 推荐(0)

YARN框架与MapReduce1.0框架的对比分析和YARN的发展目标

摘要：一、YARN框架与MapReduce1.0框架的对比分析从MapReduce1.0框架发展到YARN框架，客户端并没有发生变化，其大部分调用API及接口都保持兼容，因此，原来针对Hadoop1.0开发的代码不用做大的改动，就可以直接放到Hadoop2.0平台上运行总体而言，YARN相对于MapR 阅读全文

posted @ 2017-07-15 17:32 ostin 阅读(1760) 评论(0) 推荐(0)

YARN工作流程

摘要：图 YARN的工作流程步骤1：用户编写客户端应用程序，向YARN提交应用程序，提交的内容包括ApplicationMaster程序、启动ApplicationMaster的命令、用户程序等步骤2：YARN中的ResourceManager负责接收和处理来自客户端的请求，为应用程序分配一个容器，在阅读全文

posted @ 2017-07-15 17:24 ostin 阅读(221) 评论(0) 推荐(0)

新一代资源管理调度框架YARN

摘要：一、 MapReduce1.0的缺陷（1）JobTracker存在单点故障（2）JobTracker“大包大揽”导致任务过重（任务多时内存开销大，上限4000节点）（3）容易出现内存溢出（分配资源只考虑MapReduce任务数，不考虑CPU、内存）（4）资源划分不合理（强制划分为slot ，包括M 阅读全文

posted @ 2017-07-15 16:58 ostin 阅读(668) 评论(0) 推荐(0)

HDFS2.0的新特性(HA、Federation)

摘要：一、HDFS HA Hadoop 1.0中SecondaryNameNode作用在于避免EditLog不断增大，导致NameNode从失败恢复时耗时太大的问题；另外起到冷备份的作用。但不能起到热备份的作用，所以还是不能解决NameNode单点故障问题。名称节点保存信息：FsImage、EditLo 阅读全文

posted @ 2017-07-02 11:42 ostin 阅读(858) 评论(0) 推荐(0)

Hadoop的优化与发展

摘要：一、Hadoop的局限与不足 1、Hadoop1.0的核心组件（仅指MapReduce和HDFS，不包括Hadoop生态系统内的Pig、Hive、HBase等其他组件），主要存在以下不足：(1)、抽象层次低，需人工编码、任何一个任务都需要编写Map和Reduce函数，编译、打包、运行来得到结果。即阅读全文

posted @ 2017-07-01 17:21 ostin 阅读(506) 评论(0) 推荐(0)

ostin

文章分类 - Hadoop架构再探讨