1.hadoop架构

 

 

 

 2.HDFS操作

  创建文件夹: hadoop fs -mkdir -p 文件的位置和名字

  创建文件: hadloop fs -touchz 文件的位置和名字

  上传lunix到hadoop中:hadoop fs -put lunix文件的位置和名字 hdfs文件的位置和名字

  从hadoop下载到lunix: hadoop fs -get hdfs文件位置和名字 lunix文件位置和名字

  修改文件权限:hadoop fs -chmod 777 hdfs文件位置和名字

  删除hdfs文件和文件夹: hadoop fs -rm -r hdfs文件位置和名字

  查看hadoop文件大小: hadoop fs -du -s hdfs文件位置和名字

3.block size

  hdfs中,hadoop1.x默认使用64M的大小进行存储,hadoop2.x默认使用128M的大小进行存储。在文件存储时每个文件默认保存三份。

4.hadoop核心组件

  namenode:名称节点,负责和客户端进行通讯

  secondaryNameNode:辅助名称节点,收集计算机集群中,每台机器的状态,然后将收集到的数据传送给namenode

  datanode:数据节点,存储数据的节点

5.hdfs读取数据

  

  读取步骤解读:

    ①:客户端携带需要读取文件的路径向namenode发送请求

    ②:namenode返回有这个文件的datanode节点信息列表

    ③:客户端向datanode发送读取文件的申请

    ④:datanode返回ok表示可以读取文件

    ⑤:客户端开始读取文件,datanode将读取的内容返回

6.写入数据

  写入数据解读:

  ①:客户端发送文件到namenode的申请

  ②:namenode验证文件是否符合规则,同意客户端的数据发送,返回可以存取数据的datanode节点列表信息

  ③:客户端向随机的datanode发送数据的申请

  ④:datanode返回ok确认可以写入数据,客户端开始发送数据

7.yarn的核心组件

  resourceManager:scheduler(定时调用器)applicationManager(应用管理器)nodeManager  applicationMaster

 

   yarn原理解读

  ①客户端发送一个计算请求到resourceManager

  ②resourceManager根据所需资源消耗去nodeManager申请容器

    ③由container启动一个容器,并且在容器中生成一个applicationmaster

  ④applicationmaster会向resourceManager发送心跳包,用来监视当前app的运行情况

 8.mapreduce工作流程

 

 

     input:读取数据

  split:分配数据给map

  map:对数据进行拆分

  shuffle:对数据本身进行计算

  reduce:对计算结果进行合并

  finalize:对数据进行统一展示

  shuffle过程:

  1.将数据读取到缓存

  2.从缓存中读取数据,对数据进行分区排序

  3.将数据进行基本的聚合写入磁盘

  4.从硬盘中抓取数据

  5.对数据进行排序和聚合

 

posted on 2022-12-23 17:04  银光短战棍  阅读(49)  评论(0)    收藏  举报