大数据入门JDK、Hadoop的安装

一，大数据的概述

1，大容量（Vlome）、多类型（variety）、高时效（velocity）、价值密度低（value）。

2，目前大数据处理采用分布式、并行处理的架构，这种架构相对于传统数据处理技术有如下创新：

a,以多节点协同代替单节点能力的提升；

b,使计算与数据的结合更紧密和科学；

c,以容错机制代替对低故障率的要求；

d,处理架构的平滑扩展。

3,YARN最核心的改进是把MapReduce架构中的资源管理和作业调度两个功能拆分到独立的进程中。

随手笔记：

使用“uname -a”确认操作系统相关参数：

hadoop的组成：

概述：

hadoop HDFS:一个高可靠、高吞吐量的分布式系统

hadoop MapReduce:一个分布式的离线并行计算的框架

hadoop YARN:作业调度与集群资源管理的框架

hadoop Common:支持其他模块的工具模块

HDFS架构概述：

1，NnameNode(nn):是存储文件的元数据，例如：文件名、文件目录结构、文件属性，以及每个文件的快列表和快列所在的DataNode等。

2，DataNode(do):在本地文件系统存储文件块数据，以及块数据的校验和。

3，Secondary NameNode(2nn):用来监控HDFS状态的辅助后台程序，每隔一段时间获取HDFS元数据的快照，相当于帮HDFS干活的。

YARN架构概述：

1，ResourceManager(nm):处理客户端的请求。启动/监控APPlicationMaster、监控NodeManager、资源分配与调度。

2，NodeManager(nm):单个节点上的资源管理，处理来自ResourManager的命令，处理来自APPlicationMaster的命令

3，APPlicationMaster:数据切片，为应用程序申请资源

MapReduce架构概述:

MapReduce将计算过程分为两个阶段：Map and Reduce

1，Map阶段并行处理输入的数据

2，Reduce阶段对Map结果进行汇总

大数据生态体系，当入门了解即可

二、hadoop运行环境搭建：这是基本的一定要熟练

这里用的是centos7

克隆虚拟机，不在详细说，谷歌或百度都可以

克隆完成后要网络设置

1，设置IP 网关 DNS

vi /etc/sysconfig/network-scripts/ifcfg-ens33 (这串数字是不固定的，root权限)，:wq! #保存退出

修改后如下：

TYPE=Ethernet

PROXY_METHOD=none

BROWSER_ONLY=no

BOOTPROTO=static

DEEROUTE=yes

IPV4_FAILURE_FATAL=no

IPV6INIT=yes

IPV6_AUTOCONF=yes

IPV6_DEFROUTE=yes

IPV6_FAILURE_FATAL=no

IPV6_ADDR_GEN_MODE=stable-privacy

NAME=ens33

#删除UUID,防止克隆时出现两台机器的唯一标识是一样的

DEVICE=ens33

ONBOOT=yes

#ip

IPADDR=192.168.100.5

#网关

GATEWAY=192.168.100.2

#子网掩码

NETMASK=255.255.255.0

#使用主的DNS

DNS1=192.29.29.29

#备用的DNS

DNS2=8.8.8.8

2，修改主机名

hostnamectl set-hostname 主机名（设置自己想要的）

修改方式很多种我也来介绍一下：

方式一，通过hostnamectl来修改主机名

方式二，通过修改文件/etc/hostname来实现主机名的修改。把该文件内容替换成自己想要的主机名重启即可。

方式三，还可以通过nmtui进入图形界面来修改主机名。将光标通过键盘的上下键移动到“设定系统主机名”菜单处，按下回车键。

3，修改主机名称映射

vi /etc/hosts 尽量多添加几个，避免后期学习再来添加比较麻烦，大数据后期肯能用到6台，前期配置4台就可以了

4，重启

reboot

5，关闭防火墙

centos6关闭防火墙使用以下命令：

//临时关闭

service iptables stop

//禁止开机启动

chkconfig iptables off

centos7关闭防火墙使用以下命令：

systemctl stop firewalld //临时关闭

systemctl stop firewalld.service #停止防火墙

systemctl start firewalld.service #开启防火墙

systemctl status firewalld.service #查看防火墙状态

systemctl enable firewalld.service #开机自启 “启用”

systemctl disable firewalld.service #开机自启 “禁用

6，修改普通用户的权限

vi /etc/sudoers

hadoop ALL(ALL) ALL

sudo mkdir module

sudo mkdir software

8，权限都是root的，这样太危险了。要修改这两文件夹权限为普通用户

sudo chown hadoop:hahoop module/ software/

9，导包到/software目录下

这里用jdk1.8以上的，如果你是jdk1.8以下的要换成1.8以上的，不然后面学习中会遇到很多的麻烦

hadoop-2.7.2.tar.gz其他的版本也行，现在都是用2.x.x以上的了

10，解压到module目录下

1.1，先解压：tar -zxvf jdk-8u65-linux-x64.tar.gz -C /opt/module/

配置环境变量:sudo vi /etc/profile

然后：

重启：source /etc/profile

测试：java -version

这样Java就配置完成。

1.2， tar -zxvf hadoop-2.7.2.tar.gz -C /opt/module/

配置环境变量：sudo vi /etc/profile

重启：source /etc/profile

测试：hadoop -version或者直接hadoop

如果直接hadoop出现以下就可以了

1.3配置hadoop-env.sh 前期可配不配的，如果配置的如下

vi hadoop-env.sh

安装完毕。

posted @ 2018-12-07 14:52 余生陪你阅读(571) 评论(0) 收藏举报

刷新页面返回顶部

余生陪你

大数据入门JDK、Hadoop的安装

公告