摘要: 之前我们写好了bean类型。现在我们再看看这个需求中,map和reduce各自的流程。 Map阶段: 字段切分以后保留如下字段:以第一行为例,就保留13726230503112 2481 24681 字段 将数据封装到PhoneBean里面 将手机号设置成keyout 将PhoneBean设置成va 阅读全文
posted @ 2022-04-08 17:10 码码小菜鸟 阅读(70) 评论(0) 推荐(0)
摘要: 上一个word count的案例中,我们为了理解mapreduce的流程,写了上面的代码。现在我们要把一个实体类序列化。比如现在有这么一个文件,里面的数据格式是这样的: 第一列是时间戳,第二列是手机号码,第三列是设备的物理地址,第四列是访问网站的ip地址,第五列是网站域名,第六列是数据包,下一列是接 阅读全文
posted @ 2022-04-08 15:57 码码小菜鸟 阅读(282) 评论(0) 推荐(0)
摘要: 我们之前已经在Windows中安装好了Hadoop,并且配置了环境变量。如果要在本地上运行的,还需要这两个文件,可以去找一下,放到Hadoop的bin目录下面。这样我们写好的mr程序就可以直接在Windows上面运行了,不用再去打包上传等等。 阅读全文
posted @ 2022-04-08 14:50 码码小菜鸟 阅读(167) 评论(0) 推荐(0)
摘要: map过程已经写完了,上面那个流程我们涉及到了泛型以及序列化,我们要知道每个参数代表的含义,这样有助于我们理解整个流程。 下面我们开始reduce,这个过程我们要把map输出的键值对把key值相同的放在一起,具体的流程我们看代码: package MR.wc;import org.apache.ha 阅读全文
posted @ 2022-04-08 11:52 码码小菜鸟 阅读(85) 评论(0) 推荐(0)