随笔分类 - MapReduce
摘要:项目介绍 本项目我们使用明星搜索指数数据,分别统计出搜索指数最高的男明星和女明星。 数据集 明星搜索指数数据集,如下图所示。猛戳此链接下载数据集 思路分析 基于项目的需求,我们通过以下几步完成: 1、编写 Mapper类,按需求将数据集解析为 key=gender,value=name+hotInd
阅读全文
摘要:默认情况下,Map 输出的结果会对 Key 进行默认的排序,但是有时候需要对 Key 排序的同时再对 Value 进行排序,这时候就要用到二次排序了。下面让我们来介绍一下什么是二次排序。 二次排序原理 我们把二次排序主要分为以下几个阶段。 Map 起始阶段 在Map阶段,使用 job.setInpu
阅读全文
摘要:项目描述 现在假设有两个数据集:气象站数据库和天气记录数据库,并考虑如何合二为一。一个典型的查询是:输出气象站的历史信息,同时各行记录也包含气象站的元数据信息。 气象站和天气记录合并之后的示意图如下所示。 测试数据 启动Hadoop集群,然后在hdfs中创建join文件夹用于存放测试数据statio
阅读全文
摘要:在关系型数据库中 Join 是非常常见的操作,各种优化手段已经到了极致。在海量数据的环境下,不可避免的也会碰到这种类型的需求, 例如在数据分析时需要连接从不同的数据源中获取到数据。不同于传统的单机模式,在分布式存储下采用MapReduce 编程模型,也有相应的处理措施和优化方法。 现在假设有两个数据
阅读全文
摘要:1. MapReduce计数器是什么 计数器是用来记录Job的执行进度和状态的,其作用类似于日志。我们可以在程序的某个位置插入计数器,记录数据或进度的变化情况。 2. MapReduce计数器能做什么 计数器为我们提供了一个窗口,用于观察Job运行期间的各种细节数据,对MapReduce的性能调优很
阅读全文
摘要:项目需求 自定义输入格式,将明星微博数据排序后按粉丝数 关注数 微博数 分别输出到不同文件中。 数据集 下面是部分数据,猛戳此链接下载完整数据集 数据格式: 明星 明星微博名称 粉丝数 关注数 微博数 黄晓明 黄晓明 22616497 506 2011 张靓颖 张靓颖 27878708 238 38
阅读全文
摘要:Hadoop实战:用Hadoop MapReduce实现自定义输入和输出格式来处理Excel通话记录
阅读全文
摘要:感觉程序员的世界真是一个变幻无常且精彩绝伦的世界,每次跑程序都会发现不一样的问题。今天跑MapReduce程序来统计邮箱次数时遇到了一个问题,明明一样的代码,别人能跑,我却跑不了。我相信,基本做这行的都遇到过这种问题。好了,话不多说,来聊聊今天的错误吧。 根据日志查看到报的错误为:No lease
阅读全文
摘要:紧接着上一篇博文我们学习了MapReduce得到输出格式之后,在这篇博文里,我们将通过一个实战小项目来熟悉一下MultipleOutputs(多输出)格式的用法。 项目需求: 假如这里有一份邮箱数据文件,我们期望统计邮箱出现次数并按照邮箱的类别,将这些邮箱分别输出到不同文件路径下(MultipleO
阅读全文
摘要:实现自定义输入格式并求出每个学生的总成绩和平均成绩。
阅读全文
摘要:MapReduce实战中Error: java.lang.RuntimeException: java.lang.NoSuchMethodException错误的原因及解决方法
阅读全文
摘要:MapReduce实战项目:查找相同字母组成的字谜
阅读全文
摘要:为什么要对MapReduce进行单元测试,已经如何测试
阅读全文
摘要:MapReduce基本流程与设计思想初步
阅读全文

浙公网安备 33010602011771号