作业二:Hadoop演进与Hadoop生态
1.了解对比Hadoop不同版本的特性,可以用图表的形式呈现。

2.Hadoop生态的组成、每个组件的作用、组件之间的相互关系,以图例加文字描述呈现。
Hadoop生态系统除了核心的HDFS和MapReduce以外,Hadoop生态系统还包括Zookeeper、HBase、Hive、Pig、Mahout、Sqoop、Flume、Ambari等功能组件。

1.HDFS:具有处理超大数据、流式处理、可以运行在廉价商用服务器上,访问应用程序数据时有很高的吞吐率。
2.HBase:是一个高可靠、高性能、面向列、可伸缩的分布式数据库,采用基于列的存储,具有良好的横向扩展能力。
3.MapReduce:分布式并行编程模型,用于大规模数据集(大于1TB)的并行运算,将自己的程序运行在分布式系统上,完成海量数据集的计算。
4.Hive:数据仓库工具,对数据进行数据整理、特殊查询和分析处理。
5.Pig:数据分析平台,侧重数据查询和分析。
6.Zookeeper:提供分布式锁之类的基本服务。
7.Flume:高可用的、高可靠的、分布式的海量日志采集、聚合和传输系统,定制各类数据发送方,用于收集数据。
8.Sqoop:主要用来在Hadoop和关系数据库之间交换数据,可以改进数据的互操作性。
3.官网学习Hadoop的安装与使用,用文档的方式列出步骤与注意事项。
- 创建Hadoop用户
- 安装java环镜
- 设置SSH登录权限
- 单机模式配置
- 伪分布式模式配置
4.评估华为hadoop发行版本的特点与可用性。
华为FusionInsight HD发行版在可靠性、安全性、管理性等方面做企业级的增强,持续改进,持续保持技术领先,在丰富的数据分析挖掘、报表处理等经验基础上,自主研发的一款融合了数据源适配、ETL数据处理、数据建模、数据分析、数据填报、工作流、门户、移动应用等核心功能而打造的全能型数据分析平台。
华为FusionInsight HD是一个分布式数据处理系统,对外提供大容量的数据存储、分析查询和实时流式数据处理分析服务。在企业当中,大数据平台的主体是Hadoop平台,其业务场景主要有离线处理、实时流处理、交互查询或数据集市和实时检索。

浙公网安备 33010602011771号