第二次作业：Hadoop演进与Hadoop生态

1、了解对比Hadoop不同版本的特性，可以用图表的形式呈现。

答：

1、Apache hadoop 的2.0版本，它的模块主要有以下几个：

（1）hadoop通用模块，支持其他hadoop模块的通用工具集；

（2）Hadoop分布式文件系统，支持对应数据高吞吐量访问的分布式文件系统；

（3）用于作业调度和集群资源管理的Hadoop YANRN框架；

（4）Hadoop MapReduce，基于YARN的大数据并行处理系统。

2、Cloudera hadoop：Cloudera版本层次更加清晰，且它提供了适用于各种操作系统的Hadoop安装包，可直接使用apt-get或者yum命令进行安装，更加省事。

3、Hortonworks：Hortonworks 的主打产品是Hortonworks Data Platform (HDP)，也同样是100%开源的产品，HDP除了常见的项目外还包含了Ambari，一款开源的安装和管理系统。HCatalog，一个元数据管理系统，HCatalog现已集成到Facebook 开源的Hive中。Hortonworks的Stinger开创性地极大地优化了Hive项目。Hortonworks为入门提供了一个非常好的，易于使用的沙盒。Hortonworks开发了很多增强特性并提交至核心主干，这使得Apache Hadoop能够在包括Windows Server和Windows Azure在内的Microsoft Windows平台上本地运行。

4、国内做hadoop发行版的像华为、大快搜索都有推出自己的发行版。华为在硬件上有天然的有事，华为的FusionInsight Hadoop版本基于Apache Hadoop，构建NameNode、JobTracker、HiveServer的HA功能，进程故障后系统自动Failover，无需人工干预，这个也是对Hadoop的小修补，远不如MapR解决的彻底。

5、大快搜索推出的DKhaoop, 是目前已知的国产发行版中唯一一个纯原生态的开发，集成了整个HADOOP生态系统的全部组件，并深度优化，重新编译为一个完整的更高性能的大数据通用计算平台，实现了各部件的有机协调。因此DKH相比开源的大数据平台，在计算性能上有了高达5倍（最大）的性能提升。

2、Hadoop生态的组成、每个组件的作用、组件之间的相互关系，以图例加文字描述呈现。

答：

1，HDFS（hadoop分布式文件系统）

是hadoop体系中数据存储管理的基础。他是一个高度容错的系统，能检测和应对硬件故障。

client：切分文件，访问HDFS，与那么弄得交互，获取文件位置信息，与DataNode交互，读取和写入数据。

namenode：master节点，在hadoop1.x中只有一个，管理HDFS的名称空间和数据块映射信息，配置副本策略，处理客户端请求。

DataNode：slave节点，存储实际的数据，汇报存储信息给namenode。

secondary namenode：辅助namenode，分担其工作量：定期合并fsimage和fsedits，推送给namenode；紧急情况下和辅助恢复namenode，但其并非namenode的热备。

2，mapreduce（分布式计算框架）

mapreduce是一种计算模型，用于处理大数据量的计算。其中map对应数据集上的独立元素进行指定的操作，生成键-值对形式中间，reduce则对中间结果中相同的键的所有值进行规约，以得到最终结果。

jobtracker：master节点，只有一个，管理所有作业，任务/作业的监控，错误处理等，将任务分解成一系列任务，并分派给tasktracker。

tacktracker：slave节点，运行 map task和reducetask；并与jobtracker交互，汇报任务状态。

map task：解析每条数据记录，传递给用户编写的map（）并执行，将输出结果写入到本地磁盘（如果为map—only作业，则直接写入HDFS）。

reduce task：从map 它深刻地执行结果中，远程读取输入数据，对数据进行排序，将数据分组传递给用户编写的reduce函数执行。

3， hive（基于hadoop的数据仓库）

由Facebook开源，最初用于解决海量结构化的日志数据统计问题。

hive定于了一种类似sql的查询语言（hql）将sql转化为mapreduce任务在hadoop上执行。

4，hbase（分布式列存数据库）

hbase是一个针对结构化数据的可伸缩，高可靠，高性能，分布式和面向列的动态模式数据库。和传统关系型数据库不同，hbase采用了bigtable的数据模型：增强了稀疏排序映射表（key/value）。其中，键由行关键字，列关键字和时间戳构成，hbase提供了对大规模数据的随机，实时读写访问，同时，hbase中保存的数据可以使用mapreduce来处理，它将数据存储和并行计算完美结合在一起。

5，zookeeper（分布式协作服务）

解决分布式环境下的数据管理问题：统一命名，状态同步，集群管理，配置同步等。

6，sqoop（数据同步工具）

sqoop是sql-to-hadoop的缩写，主要用于传统数据库和hadoop之间传输数据。

数据的导入和导出本质上是mapreduce程序，充分利用了MR的并行化和容错性。

7，pig（基于hadoop的数据流系统）

定义了一种数据流语言-pig latin，将脚本转换为mapreduce任务在hadoop上执行。

通常用于离线分析。

8，mahout（数据挖掘算法库）

mahout的主要目标是创建一些可扩展的机器学习领域经典算法的实现，旨在帮助开发人员更加方便快捷地创建只能应用程序。mahout现在已经包含了聚类，分类，推荐引擎（协同过滤）和频繁集挖掘等广泛使用的数据挖掘方法。除了算法是，mahout还包含了数据的输入/输出工具，与其他存储系统（如数据库，mongoDB或Cassandra）集成等数据挖掘支持架构。

9，flume（日志收集工具）

cloudera开源的日志收集系统，具有分布式，高可靠，高容错，易于定制和扩展的特点。他将数据从产生，传输，处理并写入目标的路径的过程抽象为数据流，在具体的数据流中，数据源支持在flume中定制数据发送方，从而支持收集各种不同协议数据。

10，资源管理器的简单介绍（YARN和mesos）

随着互联网的高速发展，基于数据密集型应用的计算框架不断出现，从支持离线处理的mapreduce，到支持在线处理的storm，从迭代式计算框架到流式处理框架s4，...，在大部分互联网公司中，这几种框架可能都会采用，比如对于搜索引擎公司，可能的技术方法如下：网页建索引采用mapreduce框架，自然语言处理/数据挖掘采用spark，对性能要求到的数据挖掘算法用mpi等。公司一般将所有的这些框架部署到一个公共的集群中，让它们共享集群的资源，并对资源进行统一使用，这样便诞生了资源统一管理与调度平台，典型的代表是mesos和yarn。

11. Oozie(工作流调度器）

Oozie是一个可扩展的工作体系，集成于Hadoop的堆栈，用于协调多个MapReduce作业的执行。它能够管理一个复杂的系统，基于外部事件来执行，外部事件包括数据的定时和数据的出现。

Oozie工作流是放置在控制依赖DAG（有向无环图 Direct Acyclic Graph）中的一组动作（例如，Hadoop的Map/Reduce作业、Pig作业等），其中指定了动作执行的顺序。

Oozie使用hPDL（一种XML流程定义语言）来描述这个图。

12. Yarn(分布式资源管理器）

YARN是下一代MapReduce，即MRv2，是在第一代MapReduce基础上演变而来的，主要是为了解决原始Hadoop扩展性较差，不支持多计算框架而提出的。

Yarn是下一代 Hadoop 计算平台，yarn是一个通用的运行时框架，用户可以编写自己的计算框架，在该运行环境中运行。

用于自己编写的框架作为客户端的一个lib，在运用提交作业时打包即可。该框架为提供了以下几个组件：

- 资源管理：包括应用程序管理和机器资源管理

- 资源双层调度

- 容错性：各个组件均有考虑容错性

- 扩展性：可扩展到上万个节点

13. Mesos（分布式资源管理器）

Mesos诞生于UC Berkeley的一个研究项目，现已成为Apache项目，当前有一些公司使用Mesos管理集群资源，比如Twitter。

与yarn类似，Mesos是一个资源统一管理和调度的平台，同样支持比如MR、steaming等多种运算框架。

14. Tachyon（分布式内存文件系统）

Tachyon（/'tæki:ˌɒn/ 意为超光速粒子）是以内存为中心的分布式文件系统，拥有高性能和容错能力，

能够为集群框架（如Spark、MapReduce）提供可靠的内存级速度的文件共享服务。

Tachyon诞生于UC Berkeley的AMPLab。

15. Tez(DAG计算模型)

Tez是Apache最新开源的支持DAG作业的计算框架，它直接源于MapReduce框架，核心思想是将Map和Reduce两个操作进一步拆分，

即Map被拆分成Input、Processor、Sort、Merge和Output， Reduce被拆分成Input、Shuffle、Sort、Merge、Processor和Output等，

这样，这些分解后的元操作可以任意灵活组合，产生新的操作，这些操作经过一些控制程序组装后，可形成一个大的DAG作业。

目前hive支持mr、tez计算模型，tez能完美二进制mr程序，提升运算性能。

16. Spark(内存DAG计算模型)

Spark是一个Apache项目，它被标榜为“快如闪电的集群计算”。它拥有一个繁荣的开源社区，并且是目前最活跃的Apache项目。

最早Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架。

Spark提供了一个更快、更通用的数据处理平台。和Hadoop相比，Spark可以让你的程序在内存中运行时速度提升100倍，或者在磁盘上运行时速度提升10倍

spark是个开源的数据分析集群计算框架，最初由加州大学伯克利分校AMPLab，建立于HDFS之上。spark与hadoop一样，用于构建大规模，延迟低的数据分析应用。spark采用Scala语言实现，使用Scala作为应用框架。

spark采用基于内存的分布式数据集，优化了迭代式的工作负载以及交互式查询。

与hadoop不同的是，spark与Scala紧密集成，Scala象管理本地collective对象那样管理分布式数据集。spark支持分布式数据集上的迭代式任务，实际上可以在hadoop文件系统上与hadoop一起运行（通过YARN,MESOS等实现）。

17. Giraph(图计算模型)

Apache Giraph是一个可伸缩的分布式迭代图处理系统，基于Hadoop平台，灵感来自 BSP (bulk synchronous parallel) 和 Google 的 Pregel。

最早出自雅虎。雅虎在开发Giraph时采用了Google工程师2010年发表的论文《Pregel：大规模图表处理系统》中的原理。后来，雅虎将Giraph捐赠给Apache软件基金会。

目前所有人都可以下载Giraph，它已经成为Apache软件基金会的开源项目，并得到Facebook的支持，获得多方面的改进。

18. GraphX(图计算模型）

Spark GraphX最先是伯克利AMPLAB的一个分布式图计算框架项目，目前整合在spark运行框架中，为其提供BSP大规模并行图计算能力。

19. MLib（机器学习库）

Spark MLlib是一个机器学习库，它提供了各种各样的算法，这些算法用来在集群上针对分类、回归、聚类、协同过滤等。

20. Streaming（流计算模型）

Spark Streaming支持对流数据的实时处理，以微批的方式对实时数据进行计算

21. Kafka（分布式消息队列）

Kafka是Linkedin于2010年12月份开源的消息系统，它主要用于处理活跃的流式数据。

活跃的流式数据在web网站应用中非常常见，这些数据包括网站的pv、用户访问了什么内容，搜索了什么内容等。

这些数据通常以日志的形式记录下来，然后每隔一段时间进行一次统计处理。

22. Phoenix（hbase sql接口）

Apache Phoenix 是HBase的SQL驱动，Phoenix 使得Hbase 支持通过JDBC的方式进行访问，并将你的SQL查询转换成Hbase的扫描和相应的动作。

23. ranger(安全管理工具）

Apache ranger是一个hadoop集群权限框架，提供操作、监控、管理复杂的数据权限，它提供一个集中的管理机制，管理基于yarn的hadoop生态圈的所有数据权限。

24. knox（hadoop安全网关）

Apache knox是一个访问hadoop集群的restapi网关，它为所有rest访问提供了一个简单的访问接口点，能完成3A认证（Authentication，Authorization，Auditing）和SSO（单点登录）等

25. falcon（数据生命周期管理工具）

Apache Falcon 是一个面向Hadoop的、新的数据处理和管理平台，设计用于数据移动、数据管道协调、生命周期管理和数据发现。它使终端用户可以快速地将他们的数据及其相关的处理和管理任务“上载（onboard）”到Hadoop集群。

26.Ambari（安装部署配置管理工具）

Apache Ambari 的作用来说，就是创建、管理、监视 Hadoop 的集群，是为了让 Hadoop 以及相关的大数据软件更容易使用的一个web工具。

3、官网学习Hadoop的安装与使用，用文档的方式列出步骤与注意事项。

答：

在此之前预装jdk

一、创建hadoop用户

二、安装SSH,设置SSH无密码登陆

输入完 $ ssh-keygen -t rsa　语句以后，需要连续敲击三次回车，其中，第一次回车是让KEY存于默认位置，以方便后续的命令输入。第二次和第三次是确定passphrase，相关性不大。两次回车输入完毕以后，如果出现类似于下图所示的输出，即成功：

$ cat ./id_rsa.pub >> ./authorized_keys #加入授权

$ ssh localhost #此时已不需密码即可登录localhost，并可见下图。如果失败则可以搜索SSH免密码登录来寻求答案

三、安装hadoop

下载好以后进行安装。
（也可以在linux中安装，利用wget \ 命令）

$ sudo tar -zxvf hadoop-2.6.0.tar.gz -C /usr/local #解压到/usr/local目录下

$ cd /usr/local

$ sudo mv hadoop-2.6.0 hadoop #重命名为hadoop

$ sudo chown -R hadoop ./hadoop

安装好后，在hadoop用户下给hadoop配置环境变量，若用户不是hadoop则输入 su - hadoop切换用户
切换完成后输入 vi /etc/profile（权限要求root）
在文件底部添加

export HADOOP_HOME=/usr/local/hadoop

export CLASSPATH=$($HADOOP_HOME/bin/hadoop classpath):$CLASSPATH

export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native

export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

：wq 保存文件后执行source /etc/profile使设置生效。

！这一步容易将PATH路径覆盖，导致linux命令无法使用，所以要小心一点。

安装完成后输入 hadoop version 查看

以上图片情况表示hadoop安装完成。

四、伪分布式配置

1、先将jdk1.8的路径添加到hadoop-env.sh中，若权限不够则进入到hadoop-env.sh上级目录后再开始添加。或者输入vi hadoop-env.sh 进入到此文件，在底部添加：export JAVA_HOME=/usr/java/jdk1.8（这是我的路径，若不知道jdk1.8装在哪里，则输入echo $JAVA_HOME 回车查询）然后wq进行保存。

2、接下来修改core-site.xml文件：

<configuration>
        <property>
             <name>hadoop.tmp.dir</name>
             <value>file:/usr/local/hadoop/tmp</value>
             <description>Abase for other temporary directories.</description>
        </property>
        <property>
             <name>fs.defaultFS</name>
             <value>hdfs://localhost:9000</value>
        </property>
</configuration>

wq保存

3、接下来修改配置文件 hdfs-site.xml

<configuration>
        <property>
             <name>dfs.replication</name>
             <value>1</value>
        </property>
        <property>
             <name>dfs.namenode.name.dir</name>
             <value>file:/usr/local/hadoop/tmp/dfs/name</value>
        </property>
        <property>
             <name>dfs.datanode.data.dir</name>
             <value>file:/usr/local/hadoop/tmp/dfs/data</value>
        </property>
</configuration>

4、配置完成后，执行 NameNode 的格式化

./bin/hdfs namenode -format

权限不够的话则进入到上一级目录

然后启动namenode和datanode进程，并查看启动结果

$ ./sbin/start-dfs.sh
$ jps

启动完成后，可以通过命令 jps 来判断是否成功启动，若成功启动则会列出如下进程: “NameNode”、”DataNode” 和 “SecondaryNameNode”

全部启动成功后，进入ubuntu-Firefox中输入http://localhost:50070，若出现以下画面，则代表hadoop配置成功

4、评估华为hadoop发行版本的特点与可用性。

答：特点：

安全

架构安全
FusionInsight HD基于开源组件实现功能增强，保持100%的开放性，不使用私有架构和组件。
认证安全

支持安全协议Kerberos，

FusionInsight HD使用LDAP作为帐户管理系统，并通过Kerberos对帐户信息进行安全认证。

提供单点登录，统一了Manager系统用户和组件用户的管理及认证。

文件系统层加密
Hive、HBase可以对表、字段加密，集群内部用户信息禁止明文存储。
- 加密灵活：加密算法插件化，可进行扩充，亦可自行开发。非敏感数据可不加密，不影响性能（加密约有5%性能开销）。
- 业务透明：上层业务只需指定敏感数据（Hive表级、HBase列族级加密），加解密过程业务完全不感知。

可靠

所有管理节点组件均实现HA（High Availability）
业界第一个实现所有组件HA的产品，确保数据的可靠性、一致性。NameNode、Hive Server、HMaster、Resources Manager等管理节点均实现HA。
集群异地灾备
业界第一个支持超过1000公里异地容灾的大数据平台，为日志详单类存储提供了迄今为止可靠性最佳实践。
数据备份恢复
表级别全量备份、增量备份，数据恢复（对本地存储的业务数据进行完整性校验，在发现数据遭破坏或丢失时进行自恢复）。

易用

统一运维管理
Manager作为FusionInsight HD的运维管理系统，提供界面化的统一安装、告警、监控和集群管理。
易集成
提供北向接口，实现与企业现有网管系统集成；当前支持Syslog接口，接口消息可通过配置适配现有系统；整个集群采用统一的集中管理，未来北向接口可根据需求灵活扩展。
易开发
提供自动化的二次开发助手和开发样例，帮助软件开发人员快速上手。

可用性：

金融领域：面对互联网金融的竞争压力，金融企业急需重构以大数据分析挖掘为基础的决策和服务体系，提升自身竞争力和客户满意度。在大数据时代，银行将从以交易为中心转向以数据为中心，以应对更多维、更大量、更实时的数据和互联网业务的挑战。

运营商领域：

随着大数据时代的到来，运营商面临如下挑战。

需要处理的数据数量、种类呈现爆炸式增长，尤其对于非结构化数据的处理，现有架构的分析速度十分缓慢。
现有应用系统以烟囱式建设，导致数据重复存储，跨系统数据共享难度大，业务决策分析缓慢。

华为FusionInsight HD产品可以从不同方面解决运营商问题，提升其竞争力。例如：

构建统一的大数据详单集中平台和经营详单数据分析平台，从架构上根本解决运营商问题。
- 历史话单查询，客户可实时查询的历史话单由3个月提升到6个月至24个月。
- 经营详单数据并发分析，由原来的5天减少到1天。
构建统一的PB级大数据平台，统一存储业务数据。利用大数据平台分布式计算能力，并发处理各种分析任务，快速获取业务决策结果。
- 缩短新业务推出周期，由原来的1.5个月减少到1周。
- 存量用户挽留，VIP用户离网率大幅降低。
在保障数据安全性和隐私性前提下，提供数据共享访问和开放接口，让大数据对外提供共享服务，支撑业务创新与商业成功。

posted on 2020-09-19 12:43 桉叶阅读(213) 评论(0) 收藏举报