第二次作业

`1.当前主要的hadoop版本有以下几种：

1、Apache hadoop 的2.0版本，它的模块主要有以下几个：

（1）hadoop通用模块，支持其他hadoop模块的通用工具集；

（2）Hadoop分布式文件系统，支持对应数据高吞吐量访问的分布式文件系统；

（3）用于作业调度和集群资源管理的Hadoop YANRN框架；

（4）Hadoop MapReduce，基于YARN的大数据并行处理系统。

2、Cloudera hadoop：Cloudera版本层次更加清晰，且它提供了适用于各种操作系统的Hadoop安装包，可直接使用apt-get或者yum命令进行安装，更加省事。

3、Hortonworks：Hortonworks 的主打产品是Hortonworks Data Platform (HDP)，
也同样是100%开源的产品，HDP除了常见的项目外还包含了Ambari，一款开源的安装和管理系统。HCatalog，
一个元数据管理系统，HCatalog现已集成到Facebook 开源的Hive中。Hortonworks的Stinger开创性地极大地优化了Hive项目。
Hortonworks为入门提供了一个非常好的，易于使用的沙盒。Hortonworks开发了很多增强特性并提交至核心主干，
这使得Apache Hadoop能够在包括Windows Server和Windows Azure在内的Microsoft Windows平台上本地运行。
hadoop生态圈中包含很多组件，比如HDFS、Mapreduce、Hive、Hbase等等，这些组件在构建和使用hadoop平台过程中都是必要的吗？哪些是可选的？它们之间有可替代性吗？本文将以整理各组件特点及关系为出发点，初步走进hadoop生态圈。

2.
Oozie
Oozie是可扩展可伸缩的工作流协调管理器。Oozie协调的作业属于一次性的非循环作业，例如MapReduce, Streaming, Pipes, Pig, Hive, Sqoop等等都是。Oozie将要调度的作业作为一个单一的作业来管理。Oozie的
调度基于时间跟数据可用性。具有数据感知功能，可以协调作业之间的依赖关系.
Flume
Flume是一个类似facebook的scribe的分布式，高可靠，高可用，高效的数据收集器，一般用于聚合众多服务器上面的大量日志到某一个数据中心。
Sqoop
Sqoop用于将关系形数据库（如mysql）或者其它结构化的数据导入到hadoop的生态系统中（HDFS，Hive ， HBase），反过来也可以将hadoop的数据导出为对应的结构形式。
Hue
Hue是cdh专门的一套web管理器，它包括3个部分hue ui，hue server，hue db。hue提供所有的cdh组件的shell界面的接口。你可以在hue编写mr，查看修改hdfs的文件，管理hive的元数据，运行Sqoop，编写Oozie工作流等大量工作。
HCatalog
HCatalog提供表格数据类型到pig，hive，mr的输入数据的转换，HCatalog依赖Hive的元数据存储系统。通过HCatalog的接口pig，hive，mr自到识别这些输入数据的架构。
Avro
Avro是一个数据序列化系统。能保存持久化的数据到hdfs，能传输并且反序列化为高级数据结构。类似facebook的thrift，它也是提供多语言客户端支持的。
HttpFS
HttpFS提供REST HTTP API来读写hdfs。
Mahout
Mahout是一个编写基于大数据的机器学习软件，人工智能程序的协助工具。
Snappy
Snappy是压缩跟解压缩工具，它的应用包括将mr的最终输出结果压缩起来，Sqoop导入数据的时候也可以使用这个压缩引擎.
Whirr
Whirr是将hadoop生态系统云化的一个组件。只需要在Whirr的配置文件里指明你需要的hadoop组件，它能够用一个命令将一个hadoop生态系统完整的部署到像Amazon EC2这样的云服务器中，也能够一个命令回收这个hadoop生态系统及其使用的资源。intel的hadoop发行版也可以实现类似快捷部署的功能。

3.
一.hadoop安装及注意事项
1.安装hadoop的环境，必须在你的系统中有java的环境。
2.必须安装ssh，有的系统默认就安装，如果没有安装需要手动安装。
可以用yum install -y ssh 或者 rpm -ivh ssh的rpm包进行安装

二.安装并配置java环境
hadoop需要在java的环境中运行，需要安装JDK。
1.在官网上下载jdk，网址：http://www.oracle.com/technetwork/java/javase/downloads/index-jsp-138363.html
a.进入选择相应的rpm包或者tar包，进行安装。
三.下载并安装hadoop
1.进入hadoop的官网进行下载相应hadoop的版本。地址为：http://hadoop.apache.org/releases.html
a.下载相应的tar包
b.进行tar解包
# tar -ivh /usr/local/hadoop/hadoop-2.7.1.tar.gz
c.修改相应的配置文件信息，制定相应的java_home
#vi /usr/local/hadoop/hadoop-2.7.1/ etc/hadoop/hadoop-env.sh
# set to the root of your Java installation
export JAVA_HOME=/usr/java/latest #显示当前jdk安装的目录一般rpm是安装在 usr 目录下
d.配置hadoop的环境变量（使hadoop的命令加到path中，就可以使用hadoop的相关命令）
1.编辑/etc/profile文件，在文件的后面加上如下代码：
HADOOP_HOME=/usr/local/hadoop/hadoop-2.7.1
PATH=$HADOOP_HOME\bin:$PATH
export HADOOP_HOME PATH
2.使修改的文件生效
source /etc/profile

posted @ 2020-09-19 18:11 🐷！你别跑！阅读(124) 评论(0) 收藏举报

刷新页面返回顶部

🐷！你别跑！

第二次作业

公告