摘要:
多表关联: 准备数据 ******************************************** 工厂表: ************************************** **** 地址表: **************************************** 阅读全文
posted @ 2017-02-22 20:24
CJZhaoSimons
阅读(724)
评论(0)
推荐(0)
摘要:
源数据:Child--Parent表 目标:表的自连接:从图中可以找出Tom的grandparent为Marry和Ben,同理可以找出其他的人的grandparent 根据Child--Parent表推断grandchild和grandparent 左表 右表 将一张表分解为两张表的连接:从图中可以 阅读全文
posted @ 2017-02-22 17:02
CJZhaoSimons
阅读(613)
评论(0)
推荐(0)
摘要:
数据去重: 原理(理解):Mapreduce程序首先应该确认<k3,v3>,根据<k3,v3>确定<k2,v2>,原始数据中出现次数超过一次的数据在输出文件中只出现一次。Reduce的输出是不重复的数据,也就是每一行数据作为key,即k3。而v3为空或不需要设值。根据<k3,v3>得到k2为每一行的 阅读全文
posted @ 2017-02-22 13:23
CJZhaoSimons
阅读(8206)
评论(2)
推荐(1)

浙公网安备 33010602011771号