大数据入门JDK、Hadoop的安装

一,大数据的概述

1,大容量(Vlome)、多类型(variety)、高时效(velocity)、价值密度低(value)。

2,目前大数据处理采用分布式、并行处理的架构,这种架构相对于传统数据处理技术有如下创新:

a,以多节点协同代替单节点能力的提升;

b,使计算与数据的结合更紧密和科学;

c,以容错机制代替对低故障率的要求;

d,处理架构的平滑扩展。

3,YARN最核心的改进是把MapReduce架构中的资源管理和作业调度两个功能拆分到独立的进程中。

随手笔记:

使用“uname -a”确认操作系统相关参数:

hadoop的组成:

概述:

hadoop HDFS:一个高可靠、高吞吐量的分布式系统

hadoop MapReduce:一个分布式的离线并行计算的框架

hadoop YARN:作业调度与集群资源管理的框架

hadoop Common:支持其他模块的工具模块

HDFS架构概述:

1,NnameNode(nn):是存储文件的元数据,例如:文件名、文件目录结构、文件属性,以及每个文件的快列表和快列所在的DataNode等。

2,DataNode(do):在本地文件系统存储文件块数据,以及块数据的校验和。

3,Secondary NameNode(2nn):用来监控HDFS状态的辅助后台程序,每隔一段时间获取HDFS元数据的快照,相当于帮HDFS干活的。

YARN架构概述:

1,ResourceManager(nm):处理客户端的请求。启动/监控APPlicationMaster、监控NodeManager、资源分配与调度。

2,NodeManager(nm):单个节点上的资源管理,处理来自ResourManager的命令,处理来自APPlicationMaster的命令

3,APPlicationMaster:数据切片,为应用程序申请资源

MapReduce架构概述:

MapReduce将计算过程分为两个阶段:Map and Reduce

1,Map阶段并行处理输入的数据

2,Reduce阶段对Map结果进行汇总

大数据生态体系,当入门了解即可

 

 

二、hadoop运行环境搭建:这是基本的一定要熟练

这里用的是centos7

克隆虚拟机,不在详细说,谷歌或百度都可以

克隆完成后要网络设置

1,设置IP 网关 DNS

vi  /etc/sysconfig/network-scripts/ifcfg-ens33 (这串数字是不固定的,root权限),:wq! #保存退出

修改后如下:

TYPE=Ethernet

PROXY_METHOD=none

BROWSER_ONLY=no

BOOTPROTO=static

DEEROUTE=yes

IPV4_FAILURE_FATAL=no

IPV6INIT=yes

IPV6_AUTOCONF=yes

IPV6_DEFROUTE=yes

IPV6_FAILURE_FATAL=no

IPV6_ADDR_GEN_MODE=stable-privacy

NAME=ens33

#删除UUID,防止克隆时出现两台机器的唯一标识是一样的

DEVICE=ens33

ONBOOT=yes

#ip

IPADDR=192.168.100.5

#网关

GATEWAY=192.168.100.2

#子网掩码

NETMASK=255.255.255.0

#使用主的DNS

DNS1=192.29.29.29

#备用的DNS

DNS2=8.8.8.8

2,修改主机名

hostnamectl set-hostname 主机名(设置自己想要的)

修改方式很多种我也来介绍一下:

方式一,通过hostnamectl来修改主机名

方式二,通过修改文件/etc/hostname来实现主机名的修改。把该文件内容替换成自己想要的主机名重启即可。

方式三,还可以通过nmtui进入图形界面来修改主机名。将光标通过键盘的上下键移动到“设定系统主机名”菜单处,按下回车键。

 

 

3,修改主机名称映射

vi /etc/hosts 尽量多添加几个,避免后期学习再来添加比较麻烦,大数据后期肯能用到6台,前期配置4台就可以了

4,重启

reboot

5,关闭防火墙

centos6关闭防火墙使用以下命令:

//临时关闭

service iptables stop

//禁止开机启动

chkconfig iptables off

centos7关闭防火墙使用以下命令:

systemctl stop firewalld //临时关闭

systemctl stop firewalld.service #停止防火墙

systemctl start firewalld.service #开启防火墙

systemctl status firewalld.service #查看防火墙状态

systemctl enable firewalld.service #开机自启 “启用”

systemctl disable firewalld.service #开机自启 “禁用

6,修改普通用户的权限

vi /etc/sudoers

hadoop ALL(ALL) ALL

7,在/opt目录下创建两个目录

sudo mkdir module

sudo mkdir software

 

 

8,权限都是root的,这样太危险了。要修改这两文件夹权限为普通用户

sudo chown hadoop:hahoop module/ software/

 

 

9,导包到/software目录下

这里用jdk1.8以上的,如果你是jdk1.8以下的要换成1.8以上的,不然后面学习中会遇到很多的麻烦

hadoop-2.7.2.tar.gz其他的版本也行,现在都是用2.x.x以上的了

10,解压到module目录下

1.1,先解压:tar -zxvf jdk-8u65-linux-x64.tar.gz -C /opt/module/

配置环境变量:sudo vi /etc/profile

然后:

 

 

重启:source /etc/profile

测试:java -version

 

 

这样Java就配置完成。

1.2, tar -zxvf hadoop-2.7.2.tar.gz -C /opt/module/

配置环境变量:sudo vi /etc/profile

 

 

重启:source /etc/profile

测试:hadoop -version或者直接hadoop

如果直接hadoop出现以下就可以了

 

 

1.3配置hadoop-env.sh 前期可配不配的,如果配置的如下

vi hadoop-env.sh

 

安装完毕。

 

posted @ 2018-12-07 14:52  余生陪你  阅读(552)  评论(0编辑  收藏  举报