08 2020 档案

摘要:@ 需求 有三个文件,里面记录着一些单词,请统计每个单词分别在每个文件出现的次数。 数据输入 期待输出 比如:atguigu c.txt-->2 b.txt-->2 a.txt-->3 分析 如果一个需求,一个MRjob无法完成,可以将需求拆分为若干Job,多个Job按照依赖关系依次执行! Job1 阅读全文
posted @ 2020-08-17 18:12 孙晨c 阅读(273) 评论(0) 推荐(0)
摘要:@ 使用场景 Map Join 适用于一张表十分小、一张表很大的场景。 优点 思考:在Reduce 端处理过多的表,非常容易产生数据倾斜。怎么办? 在Map端缓存多张表,提前处理业务逻辑,这样增加Map 端业务,减少Reduce 端数据的压力,尽可能的减少数据倾斜。 具体办法:采用Distribut 阅读全文
posted @ 2020-08-17 13:21 孙晨c 阅读(690) 评论(2) 推荐(0)
摘要:@ Reduce Join原理 Map端的主要工作:为来自不同表或文件的key/value对,打标签以区别不同来源的记录。然后用连接字段作为key,其余部分和新加的标志作为value,最后进行输出。 Reduce端的主要工作:在Reduce端以连接字段作为key的分组已经完成,我们只需要在每一个分组 阅读全文
posted @ 2020-08-17 13:12 孙晨c 阅读(801) 评论(0) 推荐(0)
摘要:@ 1. PPP协议帧格式 7E:十六进制数0x7E,在PPP协议里代表帧头和帧尾,二进制表示为0111 1110,占一个子节。 FF、03:分别代表地址字段、控制字段,都是固定的 协议:标识信息部分有什么数据 2. 字节填充 问题:信息字段中出现了标志字段的值,可能会被误认为是“标志”怎么办? 将 阅读全文
posted @ 2020-08-13 11:18 孙晨c 阅读(3579) 评论(0) 推荐(0)
摘要:@ OutputFormat接口实现类 OutputFormat是MapReduce输出的基类,所有实现MapReduce输出都实现了OutputFormat接口。下面介绍几种常见的OutputFormat实现类。 文本输出TextoutputFormat 默认的输出格式是TextOutputFor 阅读全文
posted @ 2020-08-05 17:07 孙晨c 阅读(557) 评论(0) 推荐(0)
摘要:PPP协议使用场合 现在全世界使用得最多的数据链路层协议是点对点协议(Point to Point Protocol,PPP) 有身份验证的功能用户使用拨号电话线接入因特网时,一般都是使用PPP协议。 PPP协议应该满足的要求: 简单 这是首要的要求 封装成帧 透明性 多种网络层协议 多种类型链路 阅读全文
posted @ 2020-08-01 13:58 孙晨c 阅读(518) 评论(0) 推荐(0)
摘要:指对Reduce阶段的数据根据某一个或几个字段进行分组。 案例 需求 有如下订单数据 现在需要找出每一个订单中最贵的商品,如图 需求分析 利用“订单id和成交金额”作为key,可以将Map阶段读取到的所有订单数据先按照订单id(升降序都可以),再按照acount(降序)排序,发送到Reduce。 在 阅读全文
posted @ 2020-08-01 13:29 孙晨c 阅读(431) 评论(0) 推荐(0)