文章分类 -  MapReduce案例篇

摘要:转载于:https://blog.csdn.net/dong_W_/article/details/105401105 ##MapReduce中的数据输入 ####1、文件切片 什么是切片 数据块(Block):HDFS中数据保存的单位,HDFS在物理上将数据分为一个一个Block管理 数据切片(S 阅读全文
posted @ 2021-07-23 23:23 落花桂 阅读(595) 评论(0) 推荐(1)
摘要:[Toc] 一、数据样例 二、需求 在一堆给定的文本文件中统计输出每一个单词出现的总次数 三、分析 按照mapreduce编程规范,分别编写Mapper,Reducer,Driver。 四、代码实现 1、定义一个mapper类,创建 WordcountMapper 类: 2、定义一个reducer类 阅读全文
posted @ 2020-02-13 17:00 落花桂 阅读(830) 评论(0) 推荐(0)
摘要:[Toc] 一、数据样例 文件GroupingComparator.txt 内容如下:(订单id,商品id,成交金额) 二、需求 求出每一个订单中最贵的商品。 三、分析 利用“订单id和成交金额”作为key,可以将map阶段读取到的所有订单数据按照id分区,按照金额排序,发送到reduce。 在re 阅读全文
posted @ 2020-02-12 20:23 落花桂 阅读(291) 评论(0) 推荐(0)
摘要:[Toc] 一、数据样例 订单数据 order.txt:(订单id,商品id,销售数量) 商品数据 pd.txt:(商品id,商品名称) 二、需求 将商品信息表中数据根据商品pid合并到订单数据表中。 三、分析 通过将关联条件作为map输出的key,将两表满足join条件的数据并携带数据所来源的文件 阅读全文
posted @ 2020-02-11 17:59 落花桂 阅读(292) 评论(0) 推荐(0)
摘要:[Toc] 一、数据样例 订单数据 order.txt:(订单id,商品id,销售数量) 商品数据 pd.txt:(商品id,商品名称) 二、需求 将商品信息表中数据根据商品id合并到订单数据表中。 三、分析 可以将小表分发到所有的map节点,这样,map节点就可以在本地对自己所读到的大表数据进行合 阅读全文
posted @ 2020-02-11 17:53 落花桂 阅读(484) 评论(0) 推荐(0)
摘要:[Toc] 一、数据样例 文件一:one.txt 文件二:two.txt 文件三:three.txt 二、需求 无论hdfs还是mapreduce,对于小文件都有损效率,实践中,又难免面临处理大量小文件的场景,此时,就需要有相应解决方案。将多个小文件合并成一个文件SequenceFile,Seque 阅读全文
posted @ 2020-02-09 17:14 落花桂 阅读(1531) 评论(0) 推荐(0)
摘要:[Toc] 一、数据样例 二、需求 过滤输入的log日志中是否包含itstar?包含itstar的网站输出到一个文件中,不包含itstar的网站输出到另一个文件中。 三、分析 自定义outputformat,在自定义输出路径中进行数据操作。 四、代码实现 1、创建FilterRecordWriter 阅读全文
posted @ 2020-02-08 16:23 落花桂 阅读(794) 评论(0) 推荐(0)
摘要:[Toc] 一、概述 压缩技术能够有效减少底层存储系统(HDFS)读写字节数。压缩提高了网络带宽和磁盘空间的效率。在Hadoop下,尤其是数据规模很大和工作负载密集的情况下,使用数据压缩显得非常重要。在这种情况下,I/O操作和网络数据传输要花大量的时间。还有,Shuffle与Merge过程同样也面临 阅读全文
posted @ 2020-02-06 15:27 落花桂 阅读(575) 评论(0) 推荐(0)
摘要:[Toc] 一、数据样例 三个文件,a.txt,b.txt,c.txt。其中每个文件中包含若干的单词。 文件a.txt内容: 文件b.txt内容: 文件c.txt内容: 二、需求 建立搜索索引,根据查找单词来查找文档。 三、分析 1、求出每个文件中对应的单词及其单词次数,并在其后面加上其对应的文件名 阅读全文
posted @ 2020-02-05 17:44 落花桂 阅读(564) 评论(0) 推荐(0)
摘要:[Toc] 一、数据样式 人:好友1,好友2... 二、需求 求出哪些人两两之间有共同好友,及他俩的共同好友都有谁? 三、分析 1、先求出A、B、C、….等是谁的好友,比如说现在是 人:好友1,好友2... 的形式,先求 好友 人1,人2... 的结果。即先求出那些人有哪些共同好友。 2、以 好友 阅读全文
posted @ 2020-02-04 21:57 落花桂 阅读(752) 评论(0) 推荐(0)
摘要:[Toc] 一、对数据流的压缩和解压缩 CompressionCodec有两个方法可以用于轻松地压缩或解压缩数据。要想对正在被写入一个输出流的数据进行压缩,我们可以使用createOutputStream(OutputStreamout)方法创建一个CompressionOutputStream,将 阅读全文
posted @ 2020-02-03 16:00 落花桂 阅读(382) 评论(0) 推荐(0)
摘要:[Toc] 一、数据样式 网站日志的数据样例: "文件下载" 二、需求 1、对web访问日志中的各字段识别切分。 2、去除日志中不合法的记录, 3、根据统计需求,生成各类访问请求过滤数据。 三、分析 网站日志数据类型,每一行中的每个字段用 空格 隔开,且每一行的字段数量并非一致。去除不合理字段数量的 阅读全文
posted @ 2020-02-02 15:43 落花桂 阅读(464) 评论(0) 推荐(1)
摘要:[Toc] 一、数据样式 网站日志的数据样例: "文件下载" 二、需求 去除日志中字段长度小于等于11的日志。 三、分析 网站日志数据类型,每一行中的每个字段用 空格 隔开,且每一行的字段数量并非一致。直接在mapper中切割字段进行过滤。 四、代码实现 1、编写LogMapper类 2、编写Log 阅读全文
posted @ 2020-02-02 14:50 落花桂 阅读(990) 评论(0) 推荐(2)

返回顶端
Live2D