学习进度4

hadoop生态系统

上图是hadoop生态系统的一个构成。HDFS是基础的文件系统，用来存储数据，多副本，高容错。MapReduce用来进行并行计算，它运行在Yarn之上。这是前文提到过的三大核心组件，下面我们简要介绍图中的其他部分。

由于MapReduce的学习成本相对较高，这样就诞生了一些其他框架。

Hive 处理的是海量结构化日志数据的统计问题。它定义了一种类似SQL的语言Hive QL，借助于hive引擎能将其转换为MapReduce作业并提交到集群上进行运算。hive适用于离线处理。相比之下，SQL的门槛就低得多

Mahout是一个机器学习算法库，实现了很多数据挖掘的经典算法，帮助用户很方便地创建应用程序。

Pig可以将脚本任务转换为MapReduce作业，同样是适用于离线分析。

Oozie是一个工作流调度引擎，用来处理具有依赖关系的作业调度。类似的框架有Azkaban，airflow等。

Zookeeper：分布式协调服务，“动物园管理员”角色，是一个对集群服务进行管理的框架，如维护故障切换等。

Flume：日志收集框架。将多种应用服务器上的日志，统一收集到HDFS上，这样就可以使用hadoop进行处理

Sqoop：提供关系型数据库与HDFS数据相互传输的功能。

Hbase：面向列存储的数据库。适用于实时快速查询的场景。

除此之外，还有spark，kafka，flink，redis等新兴的一些实用框架。

posted @ 2021-09-16 21:15 我好cai 阅读(55) 评论(0) 收藏举报

刷新页面返回顶部

我好cai