【回顾】一、Hadoop常用的基础知识点
一、端口号
hdfs:50070
mr:8088
历史服务器:19888
二、配置文件
core-site、yarn-site、mapred-site、hdfs-site、slave
ssh免密登录,配置核心文件,namenode格式化
三、hdfs读写流程
读数据:hdfs-client向namenode请求读取数据,namenode返回该目标文件的元数据,hdfs-client通过fsdataInpute向datanode读取数据,datanode传输数据给客户端。
写数据:本地有个文件块,hdfs-client通过分布式文件系统请求上传一个文件路径,namenode判断是否可以上传,响应可以上传的话,并给出存储datanode的节点,hdfs-client向datanode请求建立block传输通道,datanode应答成功,传输packet到bytebuffer。
四、小文件问题
影响:占据namenode内存空间,每个文件开启一个maptask,占据计算资源。namenode内存默认2000M
解决:归档har;采用combineTextInputeFormat;jvm重用
纠删码原理:cpu资源换存储空间;
异构存储,冷热数据分离
五、shuffer过程
分map、reduce过程。
map有环形缓冲区,归并,排序,合并,压缩,写磁盘
reduce阶段,拉取map分区的结果数据到内存,归并排序,按key分组
六、yarn工作机制
图解
七、yarn调度器
fifo:单队列,先进先出
容量调度器:多队列,使用效率低的队列,按任务提交的时间,优先级
公平调度器:多队列,每个任务调用资源都是一样的

浙公网安备 33010602011771号