MapReduce - 随笔分类 - 子墨言良

Hadoop实战：明星搜索指数统计，找出人气王

摘要：项目介绍本项目我们使用明星搜索指数数据，分别统计出搜索指数最高的男明星和女明星。数据集明星搜索指数数据集，如下图所示。猛戳此链接下载数据集思路分析基于项目的需求，我们通过以下几步完成： 1、编写 Mapper类，按需求将数据集解析为 key=gender，value=name+hotInd 阅读全文

posted @ 2018-05-12 11:02 子墨言良阅读(837) 评论(0) 推荐(0)

MapReduce 二次排序

摘要：默认情况下，Map 输出的结果会对 Key 进行默认的排序，但是有时候需要对 Key 排序的同时再对 Value 进行排序，这时候就要用到二次排序了。下面让我们来介绍一下什么是二次排序。二次排序原理我们把二次排序主要分为以下几个阶段。 Map 起始阶段在Map阶段，使用 job.setInpu 阅读全文

posted @ 2018-05-10 16:39 子墨言良阅读(1754) 评论(6) 推荐(0)

Hadoop实战：reduce端实现Join

摘要：项目描述现在假设有两个数据集：气象站数据库和天气记录数据库，并考虑如何合二为一。一个典型的查询是：输出气象站的历史信息，同时各行记录也包含气象站的元数据信息。气象站和天气记录合并之后的示意图如下所示。测试数据启动Hadoop集群，然后在hdfs中创建join文件夹用于存放测试数据statio 阅读全文

posted @ 2018-05-10 10:15 子墨言良阅读(521) 评论(0) 推荐(0)

MapReduce中的Join算法

摘要：在关系型数据库中 Join 是非常常见的操作，各种优化手段已经到了极致。在海量数据的环境下，不可避免的也会碰到这种类型的需求，例如在数据分析时需要连接从不同的数据源中获取到数据。不同于传统的单机模式，在分布式存储下采用MapReduce 编程模型，也有相应的处理措施和优化方法。现在假设有两个数据阅读全文

posted @ 2018-05-09 10:36 子墨言良阅读(330) 评论(0) 推荐(0)

Hadoop计数器

摘要：1. MapReduce计数器是什么计数器是用来记录Job的执行进度和状态的，其作用类似于日志。我们可以在程序的某个位置插入计数器，记录数据或进度的变化情况。 2. MapReduce计数器能做什么计数器为我们提供了一个窗口，用于观察Job运行期间的各种细节数据，对MapReduce的性能调优很阅读全文

posted @ 2018-05-08 16:52 子墨言良阅读(754) 评论(0) 推荐(0)

Hadoop实战：微博数据分析

摘要：项目需求自定义输入格式，将明星微博数据排序后按粉丝数关注数微博数分别输出到不同文件中。数据集下面是部分数据，猛戳此链接下载完整数据集数据格式：明星明星微博名称粉丝数关注数微博数黄晓明黄晓明 22616497 506 2011 张靓颖张靓颖 27878708 238 38 阅读全文

posted @ 2018-04-14 21:30 子墨言良阅读(3292) 评论(0) 推荐(1)

Hadoop实战：用Hadoop处理Excel通话记录

摘要：Hadoop实战：用Hadoop MapReduce实现自定义输入和输出格式来处理Excel通话记录阅读全文

posted @ 2018-04-12 10:20 子墨言良阅读(1083) 评论(0) 推荐(0)

No lease on /目录: File does not exist. [Lease. Holder: DFSClient_NONMAPREDUCE_-2059237550_1, pendingcreates: 8]错误及解决方法

摘要：感觉程序员的世界真是一个变幻无常且精彩绝伦的世界，每次跑程序都会发现不一样的问题。今天跑MapReduce程序来统计邮箱次数时遇到了一个问题，明明一样的代码，别人能跑，我却跑不了。我相信，基本做这行的都遇到过这种问题。好了，话不多说，来聊聊今天的错误吧。根据日志查看到报的错误为：No lease 阅读全文

posted @ 2018-04-02 15:22 子墨言良阅读(7485) 评论(0) 推荐(0)

MapReduce实战：邮箱统计及多输出格式实现

摘要：紧接着上一篇博文我们学习了MapReduce得到输出格式之后，在这篇博文里，我们将通过一个实战小项目来熟悉一下MultipleOutputs（多输出）格式的用法。项目需求：假如这里有一份邮箱数据文件，我们期望统计邮箱出现次数并按照邮箱的类别，将这些邮箱分别输出到不同文件路径下（MultipleO 阅读全文

posted @ 2018-04-02 11:02 子墨言良阅读(591) 评论(0) 推荐(0)

MapReduce实战：自定义输入格式实现成绩管理

摘要：实现自定义输入格式并求出每个学生的总成绩和平均成绩。阅读全文

posted @ 2018-03-31 20:49 子墨言良阅读(679) 评论(0) 推荐(0)

MapReduce的输入格式

摘要：主要讲解MapReduce的输入格式阅读全文

posted @ 2018-03-31 10:40 子墨言良阅读(465) 评论(0) 推荐(0)

MapReduce错误之Error: java.lang.RuntimeException: java.lang.NoSuchMethodException的解决方法

摘要：MapReduce实战中Error: java.lang.RuntimeException: java.lang.NoSuchMethodException错误的原因及解决方法阅读全文

posted @ 2018-03-26 20:34 子墨言良阅读(4714) 评论(0) 推荐(0)

MapReduce实战项目：查找相同字母组成的字谜

摘要：MapReduce实战项目：查找相同字母组成的字谜阅读全文