Hadoop.之.入门部署

一、课程目标
　　-》大数据是什么？大数据能做什么？
　　-》什么是Hadoop？Hadoop的设计思想？
　　-》Hadoop如何解决大数据的问题？（什么是hdfs与yarn、MapReduce）
　　-》如何快速部署Hadoop环境（伪分布）

二、大数据的应用及发展
　　-》本质上的大数据技术：
　　　　-》学习一系列的软件工具（hadoop、spark）处理数据？
　　　　-》怎么处理？
　　-》大数据工程师与数据分析师区别？
　　　　-》数据分析师偏业务型：小数据量，样本分析
　　　　　　-》第二层处理
　　　　-》大数据（分析）工程师偏技术型：大数据量，总体分析
　　　　　　-》第一层的分析处理
　　-》应用及其工作岗位？
　　　　-》大数据分析：商业化公司
　　　　　　-》百度统计
　　　　　　-》友盟
　　　　　　-》talking data
　　　　　　-》Google Analytic
　　　　　　-》易分析
　　　　-》精准营销/推荐系统/数据预测/风险控制
　　　　　　-》用户画像：打标签
　　　　-》数据挖掘/机器学习
　　-》相关大数据技术？
　　　　-》数据采集
　　　　　　flume 　　sqoop　　 Logstash
　　　　-》数据存储
　　　　　　HDFS　　 Hbase　　 Hive 　　 tacyon 　　 redie 　　kakfa
　　　　-》数据处理
　　　　　　MapReduce 　　Hive　　 spark　　 storm 　　flink 　　kylin
　　　　-》数据应用
　　　　　　-》数据可视化
　　　　　　-》用户画像
　　　　　　-》推荐系统
　　　　　　-》数据挖掘
　　-》学习以上技术基础
　　　　Java（多线程、常见工具：集合类、字符串、日期、JVM）
　　　　SQL：大数据分析主流
　　　　Linux：所有的大数据平台都搭建在Linux上

三、Hadoop的介绍
　　-》hadoop功能：
　　　　-》Google的论文
　　　　　　-》GFS：大数据存储
　　　　　　-》MapReduce：大数据计算
　　　　　　-》BigTable ：解决大数据实时存储（Hbase）
　　　　-》大数据存储
　　　　　　HDFS
　　　　-》大数据计算
　　　　　　MapReduce
　 -》版本：
　　hadoop1：
　　　　hdfs
　　　　MapReduce
　　hadoop2：
　　　　hdfs
　　　　MapReduce
　　　　yarn
　　-》hadoop的官网
　　　　hadoop.apache.org
　　-》Hadoop四大组件
　　　　Hadoop Common:
　　　　The common utilities that support the other Hadoop modules.
　　　　功能：用于支持其他模块和其他工具的接口

　　　　Hadoop Distributed File System (HDFS?):
　　　　A distributed file system that provides high-throughput access to application data.
　　　　功能：分布式文件系统，用于存储大量数据的

　　　　Hadoop YARN:
　　　　A framework for job scheduling and cluster resource management.
　　　　功能：分布式任务调度和资源管理

　　　　Hadoop MapReduce: A YARN-based system for parallel processing of large data sets.
　　　　功能：分布式处理数据计算模型（方式）

　　-》分布式概念：区别于传统的单节点
　　　　-》分布式存储
　　　　　　-》单节点：
　　　　　　　　1个2TB文件：每台电脑拥有600GB存储空间
　　　　　　　　　　-》自己手动将2TB文件拆分成4个小文的
　　　　　　　　　　-》在第一台机器存储一个文件
　　　　　　　　　　-》一直存到第4台机器
　　　　　　　　问题：
　　　　　　　　　　-》存储时，自己手动将文件分割
　　　　　　　　　　-》1个文件 -》 4个文件
　　　　　　　　　　-》读，读4个文件
　　　　　　-》分布式：
　　　　　　　　1个2TB文件：每台机器拥有600GB存储空间
　　　　　　　　　　-》将每台机器彼此之间构建一种关系
　　　　　　　　　　-》让所有的机器变成一个整体：集群cluster
　　　　-》分布式计算
　　　　　　-》单节点：两颗CPU8核 64GB
　　　　　　　　一台机器执行：10天
　　　　　　-》分布式：集群：20颗CPU80核 640GB 单台 * 10
　　　　　　　　集群机器执行：1天

四、分布式存储：HDFS
　　-》HDFS：分布式文件系统
　　　　-》功能：
　　　　　　-》管理存储文件
　　　　　　-》文件数据的读写
　　　　-》特点：
　　　　　　-》分布式：将多台机器组成一个集群
　　　　　　-》CS模式：
　　　　　　　　客户端：client
　　　　　　　　服务端：Server
　　　　　　-》主从架构：
　　　　　　　　主：NameNode（只有一个）
　　　　　　　　-》接收客户端的请求
　　　　　　　　-》负责管理所有的从节点
　　　　　　　　-》负责管理元数据（内存）
　　　　　　　　　　-》数据文件存储的账本
　　　　　　　　　　　　-》每个文件被分成了几个块
　　　　　　　　　　　　-》每个块有几个副本
　　　　　　　　　　　　-》分别每个块存在那台机器
　　　　　　　　从：DataNode（可以有很多个）
　　　　　　　　　　-》负责真正的数据的读写
　　　　　　　　客户端：
　　　　　　　　　　-》提交用户的所有请求给服务端
　　　　　　　　　　-》将用户的文件存储时进行分割
　　　　　　　　　　-》将用户的文件读取时进行合并
　　　　　　　　Secondary NameNode：辅助进程
　　　　　　　　　　-》功能：辅助NameNode备份元数据
　　　　　　　　　　　　　　将NameNode内存中的元数据同步到本地磁盘中
　　　　　　-》分块：
　　　　　　　　HDFS会将用户存入的每一个文件按照128M一个块进行分块
　　　　　　　　　　500M:
　　　　　　　　　　　　block1:128M
　　　　　　　　　　　　block2:128M
　　　　　　　　　　　　block3:128M
　　　　　　　　　　　　block4:116M
　　　　　　　　　　每个块存储在不同从节点中
　　　　　　-》副本：安全
　　　　　　　　HDFS默认会为每个块复制两份，所以每一个块在hdfs上总共存了3份

　　　　　　　　node1　　 node2 　　 node3 　　 node4
　　　　　　　　block1　　 block2　　 block3　　 block4
　　　　　　　　block2　　 block1　　 block2　　 block1
　　　　　　　　block3　　 block3　　 block4
　　　　　　　　block4
　　-》读写流程
　　　　用户　　　　　　客户端　　　　服务端
　　　　我们自己　　　　命令行　　　　 NameNode/DataNode

　　　　-》写：
　　　　　　-》用户操作客户端提交写的请求
　　　　　　-》客户端将用户提供的文件进行分块，128M一个块
　　　　　　-》客户端将第一个块写请求给NameNode
　　　　　　-》NameNode接收客户端请求，NameNode会返回该数据块存储的DataNode的地址
　　　　　　-》客户端选择离自己最近的那台机器将数据块提交给那台DataNode，第一台存储的DataNode会将数据块进行复制给其他的两台DataNode
　　　　　　-》DataNode将存储结果返回给NameNode，NameNode记录元数据
　　　　　　-》重复以上操作，直到每个块都存完了
　　　　　　-》客户端所有块存储完成，直接返回
　　　　-》读
　　　　　　-》客户通过客户端发送读请求
　　　　　　-》客户端请求NameNode，NameNode返回每个块的存储地址
　　　　　　-》客户端从离自己最近的机器上读取每个块，将每个块进行合并成一个文件，返回给客户

　　-》HDFS是逻辑还是实际文件系统？
　　　　-》HDFS是由多台机器合在一起变成集群，对外提供统一接口的
　　　　-》HDFS是一个软件
　　　　　　软件　　　　操作系统　　　　　　硬件
　　　　　　hdfs　　　　 Linux文件系统　　　　硬盘
　　　　-》HDFS是一个基于多台机器的文件系统构建的一个虚拟的FS
　　-》所有的程序运行的物理流程
　　　　-》启动程序
　　　　-》读取硬盘中的数据加载到内存
　　　　-》CPU只能读取内存中的数据

五、Hadoop的安装部署
　　-》hadoop部署模式
　　　　-》本地模式：一般用于开发程序的测试
　　　　-》伪分布式：一台机器，一般用于测试
　　　　-》完全分布式：企业实际环境
　　-》Linux环境准备
　　　　-》配置所有机器的ip、主机名、映射
　　　　-》关闭分防火墙、selinux
　　　　-》创建统一的目录及用户
　　　　　　-》必须使用一个普通用户来操作
　　　　　　　　　　rdedu
　　　　　　-》设置统一的安装目录
　　　　　　　　sudo mkdir -p /opt/modules ：这个目录用作安装目录
　　　　　　　　sudo mkdir -p /opt/datas ：这个目录用作放数据文件
　　　　　　　　sudo mkdir -p /opt/tools ：这个目录用作放软件安装包
　　　　　　　　sudo chown -R rdedu:rdedu /opt/modules
　　　　　　　　sudo chown -R rdedu:rdedu /opt/datas
　　　　　　　　sudo chown -R rdedu:rdedu /opt/tools
　　　　-》Linux句柄数：最大线程数、最大文件数……
　　　　-》配置SSH免密钥登录：
　　　　　　ssh：是一种安全加密协议
　　　　　　　　ssh username@hostname
　　　　　　ssh bigdata-training01.erongda.com：以当前用户登录该机器
　　　　　　exit：退出

　　-》配置ssh免密钥登录
　　　　ssh-keygen -t rsa 放入命令行执行，一路回车
　　　　ssh-copy-id bigdata-training01.erongda.com
　　-》配置时间同步：分布式集群中要求每一台机器的时间是一致
　　-》安装JDK
　　　　-》上传jdk到tools目录下
　　　　-》解压安装： tar -zxf /opt/tools/jdk-8u91-linux-x64.tar.gz -C /opt/modules/
　　　　-》配置环境变量：sudo vim /etc/profile
　　　　　　注意：这个文件不能随便乱动，如果不小心修改了什么，强制退出不要保存
　　　　　　在文件的尾部添加：
　　　　　　　　export JAVA_HOME=/opt/modules/jdk1.8.0_91
　　　　　　　　export PATH=$PATH:$JAVA_HOME/bin
　　　　-》刷新环境变量
　　　　　　source /etc/profile
　　　　-》验证：
　　　　　　java -version

-》Hadoop安装部署
　　　　-》下载安装Hadoop
　　　　-》发行公司：
　　　　　　-》Apache
　　　　　　-》Cloudera：CDH
　　　　　　-》HortonWorks：HDP
　　　　　　-》星环大数据：TDH
　　　　-》发行版本
　　　　　　-》Hadoop1：1.x和0.x
　　　　　　-》Hadoop2：企业中最多
　　　　　　　　2.5-2.9
　　　　　　-》Hadoop3：去年发布正式版本，生产环境一般不会用的
　　　　-》下载地址
　　　　　　http://archive.apache.org/dist/
　　　　-》解压安装
　　　　　　tar -zxvf /opt/tools/hadoop-2.7.3.tar.gz -C /opt/modules/
　　　　　　cd /opt/modules/hadoop-2.7.3/
　　　　　　bin：该目录一般存放命令或者客户端
　　　　　　etc/conf：配置文件目录
　　　　　　lib：放依赖jar包
　　　　　　logs：放日志文件
　　　　-》修改配置
　　　　　　http://hadoop.apache.org/docs/r2.7.6/hadoop-project-dist/hadoop-common/SingleCluster.html#Pseudo-Distributed_Operation
　　　　　　/opt/modules/hadoop-2.7.3/etc/hadoop ：配置文件目录
　　　　　　-》修改env文件
　　　　　　　　hadoop-env.sh：
　　　　　　　　mapred-env.sh：
　　　　　　　　yarn-env.sh：

　　　　　　　　export JAVA_HOME=/opt/modules/jdk1.8.0_91
　　　　　　-》修改site文件
　　　　　　　　core-site.xml：配置Hadoop的全局属性
　　　　　　　　
　　　　　　　　<property>
　　　　　　　　　　<name>fs.defaultFS</name>
　　　　　　　　　　　　<value>hdfs://bigdata-training01.erongda.com:8020</value>
　　　　　　　　</property>
　　　　　　　　mkdir /opt/modules/hadoop-2.7.3/datas
　　　　　　　　
　　　　　　　　<property>
　　　　　　　　　　<name>hadoop.tmp.dir</name>
　　　　　　　　　　<value>/opt/modules/hadoop-2.7.3/datas</value>
　　　　　　　　</property>
　　　　　　　　hdfs-site.xml：配置HDFS的属性
　　　　　　　　slaves：用于指定所有从节点的地址
　　　　　　　　bigdata-training01.erongda.com
　　　　-》启动服务
　　　　　　-》第一次使用HDFS，先进行格式化
　　　　　　　　cd /opt/modules/hadoop-2.7.3/
　　　　　　　　bin/hdfs namenode -format
　　　　-》启动HDFS
　　　　　　启动主节点
　　　　　　　　sbin/hadoop-daemon.sh start namenode
　　　　　　启动从节点
　　　　　　　　sbin/hadoop-daemon.sh start datanode
　　　　-》测试运行
　　　　　　-》jps
　　　　　　6582 Jps
　　　　　　6328 NameNode
　　　　　　6479 DataNode
　　-》访问web端口：50070
　　　　在浏览器中输入：ip:50070
　　　　　　192.168.134.222:50070
　　-》hdfs的文件系统：类似于Linux文件系统，从/目录开始
　　-》执行HDFS的客户端操作
　　　　-》创建文件夹
　　　　　　bin/hdfs dfs -mkdir -p /wordcount/input
　　　　-》上传文件：从Linux到hdfs
　　　　　　bin/hdfs dfs -put /opt/datas/wc.txt /wordcount/input/
　　　　-》下载文件：从hdfs到Linux
　　　　　　bin/hdfs dfs -get /wordcount/input/wc.txt ~/
　　　　-》删除文件
　　　　　　bin/hdfs dfs -rm -r /test
　　　　-》查看文件
　　　　　　bin/hdfs dfs -cat /wordcount/input/wc.txt
　　　　-》复制、移动……
　　　　　　-cp
　　　　　　-mv
　　客户 -> 客户端 -> NameNode/DataNode
　　-》关闭HDFS
　　　　sbin/hadoop-daemon.sh stop namenode
　　　　sbin/hadoop-daemon.sh stop datanode

　　Connection refused：连接拒绝
　　-》主机地址解析不对
　　-》服务没有开启（端口没有开放）

六、分布式资源管理和任务调度：Yarn
　　-》资源管理
　　　　-》所有资源（整个集群中所有的资源）分配
　　　　　　10台机器　　每台机器1核1G
　　-》任务调度
　　　　-》一次性提交10个程序
　　　　-》谁先运行，谁后运行？每个程序能用多少资源？
　　-》特点：
　　　　-》分布式
　　　　-》主从架构
　　　　　　主：ResourceManager
　　　　　　　　-》负责接收所有用户的请求
　　　　　　　　-》负责管理所有从节点
　　　　　　　　-》负责资源管理和任务调度
　　　　　　从：NodeManager
　　　　　　　　-》负责真正执行程序
　　-》MapReduce程序在Yarn上执行的流程
　　　　1-客户通过客户端提交处理数据的程序
　　　　2-客户端将请求提交给RM，RM随机选择一个NM，在该NM上启动APP Master
　　　　3-APP Master向RM请求资源和指令
　　　　4-RM中的Resource Schedule将每台NM能够使用的资源信息和指令封装成container返回给APP Master
　　　　　　注意：真正resourcemanager做的是资源管理，控制所有nodemanager能够使用自己多少资源
　　　　5-APP Master将资源和指令发送给所有的NM
　　　　6-所有的NM，启动Map task和Reduce task来运行程序
　　　　7-每个NM运行完成之后将结果反馈给APP Master
　　　　8-APP Master将运行结果返回给RM

　　-》MapReduce的运行过程
　　　　input：输入
　　　　map：将一个大任务拆分成多个小的任务
　　　　shuflle
　　　　reduce：将每个小任务的结果进行合并
　　　　ouput：将结果进行保存

　　-》安装部署Yarn
　　　　-》下载解压Hadoop
　　　　-》修改配置
　　　　　　-》修改hdfs配置
　　　　　　-》修改MapReduce配置：etc/hadoop/mapred-site.xml
　　　　　　　　mv etc/hadoop/mapred-site.xml.template etc/hadoop/mapred-site.xml
　　　　　　　　
　　　　　　　　<property>
　　　　　　　　　　<name>mapreduce.framework.name</name>
　　　　　　　　　　<value>yarn</value>
　　　　　　　　</property>
　　　　　　-》修改Yarn配置：etc/hadoop/yarn-site.xml
　　　　　　　　
　　　　　　　　<property>
　　　　　　　　　　<name>yarn.nodemanager.aux-services</name>
　　　　　　　　　　<value>mapreduce_shuffle</value>
　　　　　　　　</property>
　　　　　　　　
　　　　　　　　<property>
　　　　　　　　　　<name>yarn.resourcemanager.hostname</name>
　　　　　　　　　　<value>bigdata-training01.erongda.com</value>
　　　　　　　　</property>
　　　　　　-》修改slaves文件：指定datanode和nodemanager的地址
　　　　-》启动服务
　　　　　　启动resourcemanager
　　　　　　　　sbin/yarn-daemon.sh start resourcemanager
　　　　　　启动nodemanager
　　　　　　　　sbin/yarn-daemon.sh start nodemanager
　　　　-》测试运行
　　　　　　7376 ResourceManager
　　　　　　7714 Jps
　　　　　　7010 NameNode
　　　　　　7604 NodeManager
　　　　　　6479 DataNode

　　　　　　访问web端口：8088

　　　　　　http://192.168.134.222:8088
　　　　-》提交wordcount程序
　　　　　　统计文件中每个单词出现多少次
　　　　　　-》将MapReduce程序提交给Yarn来执行，让nodemanager按照MapReduce的方式来执行

　　　　　　-》MapReduce输入默认读hdfs的文件，必须已存在
　　　　　　-》MapReduce输出的目录是不能提前存在的

　　　　　　bin/yarn jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar wordcount /wordcount/input/wc.txt /wordcount/ouput

　　　　　　通过yarn客户端提交运行一个jar包，jar包在share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar路径下，运行jar包中的wordcount程序，输入目录是/wordcount/input/wc.txt，输出目录是/wordcount/ouput

　　-》必须记住端口；
　　　　NameNode的RPC端口：8020
　　　　NameNode的http端口：50070
　　　　ResourceManager的Rpc端口：8032
　　　　ResourceManager的http端口：8088

　　　　-》所有客户端的请求、心跳、汇报等等都走rpc端口
　　　　-》所有web界面的提供都走http端口
　 -》关机前记得关闭所有进程
　　　　将启动命令中的 start更换为stop

如有问题，欢迎纠正！！！

如有转载，请标明源处：https://www.cnblogs.com/Charles-Yuan/p/9614615.html

posted @ 2018-09-09 19:00 公子缘阅读(249) 评论(0) 收藏举报

刷新页面返回顶部