摘要: 1.单表关联 "单表关联"要求从给出的数据中寻找所关心的数据,它是对原始数据所包含信息的挖掘。 实例描述给出child-parent(孩子——父母)表,要求输出grandchild-grandparent(孙子——爷奶)表。 算法思想: 这个实例需要进行单表连接,连接的是左表的parent列和右表的 阅读全文
posted @ 2018-01-29 21:48 M_study 阅读(450) 评论(0) 推荐(0) 编辑
摘要: ***坐标距离*** 场景描述: 已知一个单身美女的坐标,和一群单身帅哥的坐标,求离美女最近的帅哥 数据(空格分开x、y坐标): (10,12)(23,23)(20,20)(1,3)(23,7) 假设美女的坐标为(5,5) 代码实现: public class distance2 { static 阅读全文
posted @ 2018-01-29 19:28 M_study 阅读(310) 评论(0) 推荐(0) 编辑
摘要: ***数据去重*** 目标:原始数据中出现次数超过一次的数据在输出文件中只出现一次。 算法思想:根据reduce的过程特性,会自动根据key来计算输入的value集合,把数据作为key输出给reduce,无论这个数据出现多少次,reduce最终结果中key只能输出一次。 1.实例中每个数据代表输入文 阅读全文
posted @ 2018-01-29 19:16 M_study 阅读(4702) 评论(0) 推荐(0) 编辑
摘要: 1.Combiner Combiner是MapReduce的一种优化手段。每一个map都可能会产生大量的本地输出,Combiner的作用就是对map端的输出先做一次合并,以减少map和reduce结点之间的数据传输量,以提高网络IO性能。只有操作满足结合律的才可设置combiner。 Combine 阅读全文
posted @ 2018-01-29 08:40 M_study 阅读(1486) 评论(0) 推荐(1) 编辑