【回顾】一、Hadoop常用的基础知识点

一、端口号

hdfs：50070

mr：8088

历史服务器：19888

二、配置文件

core-site、yarn-site、mapred-site、hdfs-site、slave

ssh免密登录，配置核心文件，namenode格式化

三、hdfs读写流程

读数据：hdfs-client向namenode请求读取数据，namenode返回该目标文件的元数据，hdfs-client通过fsdataInpute向datanode读取数据，datanode传输数据给客户端。

写数据：本地有个文件块，hdfs-client通过分布式文件系统请求上传一个文件路径，namenode判断是否可以上传，响应可以上传的话，并给出存储datanode的节点，hdfs-client向datanode请求建立block传输通道，datanode应答成功，传输packet到bytebuffer。

四、小文件问题

影响：占据namenode内存空间，每个文件开启一个maptask，占据计算资源。namenode内存默认2000M

解决：归档har；采用combineTextInputeFormat；jvm重用

纠删码原理：cpu资源换存储空间；

异构存储，冷热数据分离

五、shuffer过程

分map、reduce过程。

map有环形缓冲区，归并，排序，合并，压缩，写磁盘

reduce阶段,拉取map分区的结果数据到内存，归并排序，按key分组

六、yarn工作机制

图解

七、yarn调度器

fifo：单队列，先进先出

容量调度器：多队列，使用效率低的队列，按任务提交的时间，优先级

公平调度器：多队列，每个任务调用资源都是一样的

posted @ 2021-11-02 17:09 持枢阅读(147) 评论(0) 收藏举报

刷新页面返回顶部

持枢

【回顾】一、Hadoop常用的基础知识点

公告