总访问量: PV

DataScience && DataMining && BigData

摘要: 多表关联: 准备数据 ******************************************** 工厂表: ************************************** **** 地址表: **************************************** 阅读全文
posted @ 2017-02-22 20:24 CJZhaoSimons 阅读(724) 评论(0) 推荐(0)
摘要: 源数据:Child--Parent表 目标:表的自连接:从图中可以找出Tom的grandparent为Marry和Ben,同理可以找出其他的人的grandparent 根据Child--Parent表推断grandchild和grandparent 左表 右表 将一张表分解为两张表的连接:从图中可以 阅读全文
posted @ 2017-02-22 17:02 CJZhaoSimons 阅读(613) 评论(0) 推荐(0)
摘要: 数据去重: 原理(理解):Mapreduce程序首先应该确认<k3,v3>,根据<k3,v3>确定<k2,v2>,原始数据中出现次数超过一次的数据在输出文件中只出现一次。Reduce的输出是不重复的数据,也就是每一行数据作为key,即k3。而v3为空或不需要设值。根据<k3,v3>得到k2为每一行的 阅读全文
posted @ 2017-02-22 13:23 CJZhaoSimons 阅读(8206) 评论(2) 推荐(1)