摘要:
Hadoop的集群规划 前置安装 JDK安装 Hadoop集群部署 1. Hadoop的集群规划 前面我们都了解了Hadoop和Yarn的运行原理和架构, Hadoop包含:NameNode,DataNode,SeconderNameNode节点 Yarn包含:ResourceManage Node 阅读全文
posted @ 2020-11-07 18:11
大可耐啊
阅读(162)
评论(0)
推荐(0)
摘要:
GetPageId类(通过日志获取PageId) package util; public class IPParser extends IPSeeker { // 地址 仅仅只是在ecplise环境中使用,部署在服务器上,需要先将qqwry.dat放在集群的各个节点某个有读取权限目录, // 然后 阅读全文
posted @ 2020-11-07 17:19
大可耐啊
阅读(133)
评论(0)
推荐(0)
摘要:
页面浏览量统计功能实现: 统计页面量功能: 思路:统计页面浏览功能就是统计访问记录的总条数,因为还没学习SQL方式进行统计,使用MapReduce变成的方式,我要做的就是把一行记录做成一个固定的key,然后value复制为1,在Reduce阶段解析累脚操作 用到了GetPageId Mapper类: 阅读全文
posted @ 2020-11-07 16:53
大可耐啊
阅读(100)
评论(0)
推荐(0)
摘要:
省份浏览量统计功能实现: 1.统计各个省份的浏览量 省份浏览器统计值ip库解析 省份浏览器统计之日志解析 省份浏览器统计之功能实现 前期准备: 4个工具类:GetPageId IPParser IPSeeker LogParser qqwry.dat Mapper类 //Mapper类 static 阅读全文
posted @ 2020-11-07 16:36
大可耐啊
阅读(101)
评论(0)
推荐(0)
摘要:
用户流量: 把对应的电话号码的上行下行流量进行统计,最后显示出手机号 上行流量 下行流量 总流量 Mapper类: static class PhoneMapper extends Mapper<LongWritable, Text, Text, Text>{ protected void map( 阅读全文
posted @ 2020-11-07 16:24
大可耐啊
阅读(126)
评论(0)
推荐(0)
摘要:
认识Combiner组件和Partitioner组件 实例场景 1.Combiner组件: 对比:不使用Combiner,那么所有的结果都是reduce完成,效率相对低下 为了进一步提升运算速度,使用Combiner组件,减少MapTasks输出的量及数据网络传输量每一个map可能会产生大量的输出, 阅读全文
posted @ 2020-11-07 16:13
大可耐啊
阅读(310)
评论(0)
推荐(0)