摘要: Job提交流程其实流程图的话,已经满天飞了,我也没有搬过来的必要,主要是流程图背后发生了什么,这些事情为什么发生,为什么Hadoop的WordCount本地开发也能运行,同样的代码是怎么提交到集群上的,这些问题如果不看源码, 基本都不会知道的,我就简单分析一下吧 : : 若有错误和不足的地方请直接指 阅读全文
posted @ 2020-09-26 15:20 wen1995 阅读(375) 评论(0) 推荐(0) 编辑
摘要: 数据切片问题: 先给不懂得同学解释一下概念: 数据块Block:是HDFS物理数据块,一个大文件丢到HDFS上,会被HDFS切分成指定大小的数据块,即Block 数据切片:数据切片是逻辑概念,只是程序在输入数据的时候对数据进行标记,不会实际切分磁盘数据 Mapper的数量是由切片数量,解释如下 切片 阅读全文
posted @ 2020-09-26 11:26 wen1995 阅读(1747) 评论(0) 推荐(0) 编辑