摘要: 步骤:input从HDFS读取内容, split()切割分片内容,key/value, map()方法对输入的key/value进行计算处理,先写到内存,在内存中进行分区、排序,之后将Key/value写入磁盘对应分区 combiner方法(本地计算,不是所有都适用,目的是减少网络传输) shuff 阅读全文
posted @ 2019-12-05 11:19 一只竹节虫 阅读(999) 评论(0) 推荐(0)
摘要: 什么是数据倾斜? 数据不可避免的出现离群值,并导致数据倾斜,数据倾斜会显著的拖慢MR的执行速度 常见数据倾斜有以下几类 1.数据频率倾斜 某一个区域的数据量要远远大于其他区域 2.数据大小倾斜 一部分记录的大小远远大于平均值 解决数据倾斜的常用方法 阅读全文
posted @ 2019-12-05 11:12 一只竹节虫 阅读(298) 评论(0) 推荐(0)