随笔分类 -  hadoop

摘要:hive优化 阅读全文
posted @ 2021-01-14 13:53 凯尔哥 阅读(361) 评论(0) 推荐(0)
摘要:作业提交 Client调用job.waitForCompletion⽅法,向整个集群提交MapReduce作业。 Client向RM申请一个作业id。 RM给Client返回该job资源的提交路径和作业id。 Client提交jar包、切⽚信息和配置文件到指定的资源提交路径。 Client提交完资源 阅读全文
posted @ 2021-01-02 12:17 凯尔哥 阅读(805) 评论(0) 推荐(0)
摘要:![](https://img2020.cnblogs.com/blog/2134332/202101/2134332-20210101144532827-2055635318.png) 阅读全文
posted @ 2021-01-01 14:46 凯尔哥 阅读(110) 评论(0) 推荐(0)
摘要:合并元数据的原因 首先要知道磁盘和内存中都保存有元数据,但是磁盘和内存保存的元数据信息是不一致的。我们知道元数据包括三个部分:抽象目录树、数据和block和对应关系、block存储的位置 在磁盘中的元数据是由正在编辑的日志文件(edits_inprogress)和镜像文件(fsimage)组成。里面 阅读全文
posted @ 2020-12-31 20:25 凯尔哥 阅读(590) 评论(0) 推荐(0)
摘要:HDFS文件上传流程 客户端向NameNode发送数据上传请求,这个请求当中包含一个重要的信息就是文件的长度信息。假设该文件的大小为207M. hadoop fs -put /test.txt /data NameNode接收到客户端的请求之后会做一系列的检查 文件是否存在,如果存在,报错 上传文件 阅读全文
posted @ 2020-12-30 21:24 凯尔哥 阅读(2891) 评论(2) 推荐(1)