2022 年 4月 8 日随笔档案 - 码码小菜鸟

2022年4月8日

摘要：之前我们写好了bean类型。现在我们再看看这个需求中，map和reduce各自的流程。 Map阶段：字段切分以后保留如下字段：以第一行为例，就保留13726230503112 2481 24681 字段将数据封装到PhoneBean里面将手机号设置成keyout 将PhoneBean设置成va 阅读全文

posted @ 2022-04-08 17:10 码码小菜鸟阅读(70) 评论(0) 推荐(0)

自定义bean对象实现序列化接口

摘要：上一个word count的案例中，我们为了理解mapreduce的流程，写了上面的代码。现在我们要把一个实体类序列化。比如现在有这么一个文件，里面的数据格式是这样的：第一列是时间戳，第二列是手机号码，第三列是设备的物理地址，第四列是访问网站的ip地址，第五列是网站域名，第六列是数据包，下一列是接阅读全文

posted @ 2022-04-08 15:57 码码小菜鸟阅读(282) 评论(0) 推荐(0)

Windows环境中Hadoop配置

摘要：我们之前已经在Windows中安装好了Hadoop，并且配置了环境变量。如果要在本地上运行的，还需要这两个文件，可以去找一下，放到Hadoop的bin目录下面。这样我们写好的mr程序就可以直接在Windows上面运行了，不用再去打包上传等等。阅读全文

posted @ 2022-04-08 14:50 码码小菜鸟阅读(167) 评论(0) 推荐(0)

word count的reduce过程以及项目打包部署

摘要： map过程已经写完了，上面那个流程我们涉及到了泛型以及序列化，我们要知道每个参数代表的含义，这样有助于我们理解整个流程。下面我们开始reduce，这个过程我们要把map输出的键值对把key值相同的放在一起，具体的流程我们看代码： package MR.wc;import org.apache.ha 阅读全文

posted @ 2022-04-08 11:52 码码小菜鸟阅读(85) 评论(0) 推荐(0)

bozai-1

公告