Hadoop 介绍/安装

一、是什么

  • Hadoop是一个由Apache基金会所开发的分布式系统基础架构
  • 主要解决,海量数据的存储和海量数据的分析计算问题
  • 广义上来说,Hadoop通常指一个更广泛的概念——Hadoop生态圈

二、Hadoop三大发行版本

Hadoop三大发行版本:Apache、Cloudera、Hortonworks。

  • Apache版本最原始(最基础)的版本,对于入门学习最好。
  • Cloudera在大型互联网企业中用的较多。
  • Hortonworks文档较好。

三、Hadoop的优势(4高)

  1. 高可靠性:Hadoop底层维护多个数据副本,所以即使Hadoop某个计算元素或存储出现故障,也不会出现数据的丢失
  2. 高扩展性:在集群间分配任务数据,可方便的扩展数以千计的节点
  3. 高效性:在MapReduce的思想下,Hadoop是并行工作的,以加快任务处理速度
  4. 高容错性:能够自动将失败的任务重新分配

四、Hadoop组成

1、HDFS架构概述

HDFS(Hadoop Distributed File System)的架构概述,如下图所示

2、YARN架构概述

YARN架构概述,如下图所示

3、MapReduce架构概述

MapReduce将计算过程分为两个阶段:Map和Reduce,如下图所示

  1. Map阶段并行处理输入数据
  2. Reduce阶段对Map结果进行汇总

五、大数据技术生态体系

大数据技术生态体系如下图所示

六、推荐系统框架图

推荐系统项目架构如下图所示。

七、安装

步骤一:官网下载安装包并解压:tar -zxvf hadoop-2.7.2.tar.gz

步骤二:修改配置文件 /etc/profile

export HADOOP_HOME=/opt/software/hadoop2.7
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin

主要:source /etc/profile

步骤三:测试

[root@centos7 software]# hadoop version
Hadoop 2.7.2
Subversion Unknown -r Unknown
Compiled by root on 2017-05-22T10:49Z
Compiled with protoc 2.5.0
From source with checksum d0fda26633fa762bff87ec759ebe689c
This command was run using /opt/software/hadoop2.7/share/hadoop/common/hadoop-common-2.7.2.jar
[root@centos7 software]# 

八、Hadoop目录结构

重要目录

  • bin目录:存放对Hadoop相关服务(HDFS,YARN)进行操作的脚本
  • etc目录:Hadoop的配置文件目录,存放Hadoop的配置文件
  • lib目录:存放Hadoop的本地库(对数据进行压缩解压缩功能)
  • sbin目录:存放启动或停止Hadoop相关服务的脚本
  • share目录:存放Hadoop的依赖jar包、文档、和官方案例

 

posted @ 2021-07-10 14:09  认真对待世界的小白  阅读(97)  评论(0)    收藏  举报