【回顾】一、Hadoop常用的基础知识点

一、端口号

hdfs:50070

mr:8088

历史服务器:19888

二、配置文件

core-site、yarn-site、mapred-site、hdfs-site、slave

ssh免密登录,配置核心文件,namenode格式化

三、hdfs读写流程

读数据:hdfs-client向namenode请求读取数据,namenode返回该目标文件的元数据,hdfs-client通过fsdataInpute向datanode读取数据,datanode传输数据给客户端。

写数据:本地有个文件块,hdfs-client通过分布式文件系统请求上传一个文件路径,namenode判断是否可以上传,响应可以上传的话,并给出存储datanode的节点,hdfs-client向datanode请求建立block传输通道,datanode应答成功,传输packet到bytebuffer。

四、小文件问题

影响:占据namenode内存空间,每个文件开启一个maptask,占据计算资源。namenode内存默认2000M

解决:归档har;采用combineTextInputeFormat;jvm重用

纠删码原理:cpu资源换存储空间;

异构存储,冷热数据分离

五、shuffer过程

分map、reduce过程。

map有环形缓冲区,归并,排序,合并,压缩,写磁盘

reduce阶段,拉取map分区的结果数据到内存,归并排序,按key分组

六、yarn工作机制

图解

七、yarn调度器

fifo:单队列,先进先出

容量调度器:多队列,使用效率低的队列,按任务提交的时间,优先级

公平调度器:多队列,每个任务调用资源都是一样的

 

posted @ 2021-11-02 17:09  持枢  阅读(142)  评论(0)    收藏  举报