【1】Hadoop - 随笔分类 - |旧市拾荒|

Eclipse环境搭建并且运行wordcount程序

摘要：一、安装Hadoop插件 1. 所需环境 hadoop2.0伪分布式环境平台正常运行所需压缩包：eclipse-jee-luna-SR2-linux-gtk-x86_64.tar.gz 在Linux环境下运行的eclipse软件压缩包,解压后文件名为eclipse hadoop2x-eclipse 阅读全文

posted @ 2018-10-31 22:28 |旧市拾荒| 阅读(3178) 评论(0) 推荐(0)

Hadoop2.0伪分布式平台环境搭建

摘要：一、搭建环境的前提条件环境：ubuntu-16.04 hadoop-2.6.0 jdk1.8.0_161。这里的环境不一定需要和我一样，基本版本差不多都ok的，所需安装包和压缩包自行下载即可。因为这里是配置Hadoop的教程，配置Java以及安装VMware Tools就自行百度解决哈，这里就不阅读全文

posted @ 2018-10-31 18:51 |旧市拾荒| 阅读(1319) 评论(1) 推荐(0)

Hadoop Partition函数应用(归档)

摘要：一、实例描述在这个实例里我们使用简单的数据集，里面包含多条数据，每条数据由姓名、年龄、性别和成绩组成。实例要求是按照如下规则归档用户。 1.找出年龄小于20岁中男生和女生的最大分数 2.找出20岁到50岁男生和女生的最大分数 3.找出50岁以上的男生和女生的最大分数样例输入：样例输出： 1.年阅读全文

posted @ 2018-08-03 11:01 |旧市拾荒| 阅读(483) 评论(0) 推荐(0)

Hadoop 倒排索引

摘要：倒排索引是文档检索系统中最常用的数据结构，被广泛地应用于全文搜索引擎。它主要是用来存储某个单词（或词组）在一个文档或一组文档中存储位置的映射，即提供了一种根据内容来查找文档的方式。由于不是根据文档来确定文档所包含的内容，而是进行相反的操作，因而称为倒排索引（Inverted Index）。一、实例阅读全文

posted @ 2018-07-24 17:27 |旧市拾荒| 阅读(481) 评论(0) 推荐(0)

Hadoop 电话通信清单

摘要：一、实例要求现有一批电话通信清单，记录了用户A拨打某些特殊号码（如120，10086，13800138000等）的记录。需要做一个统计结果，记录拨打给用户B的所有用户A。二、测试样例样例输入： file.txt： 13599999999 10086 13899999999 120 139444 阅读全文

posted @ 2018-07-22 17:08 |旧市拾荒| 阅读(516) 评论(0) 推荐(0)

Hadoop 多表关联

摘要：一、实例描述多表关联和单表关联类似，它也是通过对原始数据进行一定的处理，从其中挖掘出关心的信息。下面进入这个实例。输入是两个文件，一个代表工厂表，包含工厂名列和地址编号列；另一个代表地址列，包含地址名列和地址编号列。要求从输入数据中找出工厂名和地址名的对应关系，输出工厂名-地址名表。样例输入：阅读全文

posted @ 2018-07-21 10:54 |旧市拾荒| 阅读(1154) 评论(0) 推荐(0)

Hadoop 单表关联

摘要：前面的实例都是在数据上进行一些简单的处理，为进一步的操作打基础。单表关联这个实例要求从给出的数据中寻找到所关心的数据，它是对原始数据所包含信息的挖掘。下面进入这个实例。 1.实例描述实例中给出child-parent表，要求输出grandchild-grandparent表。样例输入： file 阅读全文

posted @ 2018-07-18 19:42 |旧市拾荒| 阅读(763) 评论(0) 推荐(0)

Hadoop 排序

摘要：数据排序是许多实际任务在执行时要完成的第一项工作，比如学生成绩评比、数据建立索引等。这个实例和数据去重类似，都是先对原始数据进行初步处理，为进一步的数据操作打好基础。 1.实例描述对输入文件中的数据进行排序。输入文件中的每行内容均为一个数字，即一个数据。要求在输出中每行有两个间隔的数字，其中，第二阅读全文

posted @ 2018-07-17 11:02 |旧市拾荒| 阅读(944) 评论(0) 推荐(0)

Hadoop 数据去重

摘要：数据去重这个实例主要是为了读者掌握并利用并行化思想对数据进行有意义的筛选。统计大数据集上的数据种类个数、从网站日志中计算访问等这些看似庞杂的任务都会涉及数据去重。下面就进入这个实例的MapReduce程序设计。 1.实例描述对数据文件中的数据进行去重。数据文件中的每行都是一个数据。样例输入： f 阅读全文

posted @ 2018-07-15 20:22 |旧市拾荒| 阅读(832) 评论(0) 推荐(0)

Hadoop 学生平均成绩

摘要：1.实例描述通过一个计算学生平均成绩的例子来讲解开发MapReduce程序的流程。输入文件都是纯文本文件，输入文件中的每行内容均为一个学生的姓名和他相应的成绩，如果有多门学科，则每门学科为一个文件。输出文件每行包含学生的姓名和平均成绩。下面给出样本输入文件，以及跑MapReduce程序过后的输出文阅读全文

posted @ 2018-07-15 15:33 |旧市拾荒| 阅读(1612) 评论(0) 推荐(0)

MapReduce计算模型的优化

摘要：MapReduce 计算模型的优化涉及了方方面面的内容，但是主要集中在两个方面：一是计算性能方面的优化：二是I/O操作方面的优化。这其中，又包含六个方面的内容。 1.任务调度任务调度是Hadoop中非常重要的一环，这个优化又涉及两个方面的内容。计算方面，Hadoop总会优先将任务分配给空闲的机器，阅读全文

posted @ 2018-07-14 16:42 |旧市拾荒| 阅读(249) 评论(0) 推荐(0)

|旧市拾荒|

三年工作经验，任职于某银行科技部门，从事后端开发与数据开发。

随笔分类 - 【1】Hadoop

公告