随笔档案「2017年2月21日」：Mapreduce其他部分 ... - CJZhaoSimons

2017年2月21日

摘要： 1.hadoop的压缩codec Codec为压缩，解压缩的算法实现。在Hadoop中，codec由CompressionCode的实现来表示。下面是一些实现：可分割性：可分割与不可分割的区别：文件是否可被切成多个inputsplit。对于不能切割的文件，如果使用mapreduce算法，需要切阅读全文

posted @ 2017-02-21 23:17 CJZhaoSimons 阅读(413) 评论(0) 推荐(0)

MapReduce的洗牌(Shuffle)

摘要： Shuffle过程：数据从map端传输到reduce端的过程~ Map端每个map有一个环形内存缓冲区，用于存储任务的输出。默认大小100MB（io.sort.mb属性），一旦达到阀值0.8（io.sort.spill.percent）,一个后台线程把内容写到(spill)磁盘的指定目录（mapr 阅读全文

posted @ 2017-02-21 22:01 CJZhaoSimons 阅读(710) 评论(0) 推荐(0)

MapReduce规约

摘要：深入了解Combiners编程(相当于Map端的Reduce) 每一个map可能会产生大量的输出，combiner的作用就是在map端对输出先做一次合并，以减少传输到reducer的数据量。 combiner最基本是实现本地key的归并，combiner具有类似本地的reduce功能。如果不用co 阅读全文

posted @ 2017-02-21 20:36 CJZhaoSimons 阅读(988) 评论(0) 推荐(1)

MapReduce分组

摘要：分组：相同key的value进行分组例子：如下输入输出，右边的第一列没有重复值，第二列取得是当第一列相同时第二例取最大值分析：首先确定<k3,v3>,k3的选择两种方式，方法1.前两列都作为k3 方法2.两列分别是k3和v3，此种情况的k2和v2分别是那些，第一列为k2，第二列为v2，但是最后阅读全文

posted @ 2017-02-21 19:17 CJZhaoSimons 阅读(2019) 评论(0) 推荐(1)

MapReduce排序

摘要：在map和reduce阶段进行排序时，比较的是k2。v2是不参与排序比较的。如果要想让v2也进行排序，需要把k2和v2组装成新的类，作为k2，才能参与比较。例子: 二次排序：在第一列有序得到前提下第二列進行排序。思路：先找<k3,v3>在找<k2,v2>之後的mapreduce就容易寫了方法1 阅读全文

posted @ 2017-02-21 15:21 CJZhaoSimons 阅读(911) 评论(0) 推荐(0)

博客园添加访问人数统计

摘要：无意中看到有这个访问量的统计，觉得挺好玩的，我们现在就来添加一个吧： 1. 先到http://www.amazingcounters.com/sign-up.php 这个地址去申请一个帐户，申请时填写好自己的资料，比如你的统计风格样式、要统计的地址、要统计的类型，是浏览量(PV) 还是访客数(U 阅读全文

posted @ 2017-02-21 12:51 CJZhaoSimons 阅读(344) 评论(0) 推荐(0)

Mr.Zhao

---做好每一件小事

公告