hadoop基础

1.hadoop架构

2.HDFS操作

　　创建文件夹： hadoop fs -mkdir -p 文件的位置和名字

　　创建文件： hadloop fs -touchz 文件的位置和名字

　　上传lunix到hadoop中：hadoop fs -put lunix文件的位置和名字 hdfs文件的位置和名字

　　从hadoop下载到lunix： hadoop fs -get hdfs文件位置和名字 lunix文件位置和名字

　　修改文件权限：hadoop fs -chmod 777 hdfs文件位置和名字

　　删除hdfs文件和文件夹： hadoop fs -rm -r hdfs文件位置和名字

　　查看hadoop文件大小： hadoop fs -du -s hdfs文件位置和名字

3.block size

　　hdfs中，hadoop1.x默认使用64M的大小进行存储，hadoop2.x默认使用128M的大小进行存储。在文件存储时每个文件默认保存三份。

4.hadoop核心组件

　　namenode：名称节点，负责和客户端进行通讯

　　secondaryNameNode：辅助名称节点，收集计算机集群中，每台机器的状态，然后将收集到的数据传送给namenode

　　datanode：数据节点，存储数据的节点

5.hdfs读取数据

　　读取步骤解读：

　　　　①：客户端携带需要读取文件的路径向namenode发送请求

　　　　②：namenode返回有这个文件的datanode节点信息列表

　　　　③：客户端向datanode发送读取文件的申请

　　　　④：datanode返回ok表示可以读取文件

　　　　⑤：客户端开始读取文件，datanode将读取的内容返回

6.写入数据

　　写入数据解读：

　　①：客户端发送文件到namenode的申请

　　②：namenode验证文件是否符合规则，同意客户端的数据发送，返回可以存取数据的datanode节点列表信息

　　③：客户端向随机的datanode发送数据的申请

　　④：datanode返回ok确认可以写入数据，客户端开始发送数据

7.yarn的核心组件

　　resourceManager：scheduler（定时调用器）applicationManager（应用管理器）nodeManager applicationMaster

　　yarn原理解读

　　①客户端发送一个计算请求到resourceManager

　　②resourceManager根据所需资源消耗去nodeManager申请容器

　 ③由container启动一个容器，并且在容器中生成一个applicationmaster

　　④applicationmaster会向resourceManager发送心跳包，用来监视当前app的运行情况

8.mapreduce工作流程

　 input：读取数据

　　split：分配数据给map

　　map：对数据进行拆分

　　shuffle：对数据本身进行计算

　　reduce：对计算结果进行合并

　　finalize：对数据进行统一展示

　　shuffle过程：

　　1.将数据读取到缓存

　　2.从缓存中读取数据，对数据进行分区排序

　　3.将数据进行基本的聚合写入磁盘

　　4.从硬盘中抓取数据

　　5.对数据进行排序和聚合

posted on 2022-12-23 17:04 银光短战棍阅读(49) 评论(0) 收藏举报

刷新页面返回顶部

公告