随笔分类 -  hadoop

摘要:"单表关联"要求从给出的数据中寻找所关心的数据,它是对原始数据所包含信息的挖掘 1 实例描述 给出child-parent(孩子——父母)表,要求输出grandchild-grandparent(孙子——祖父母)表 样例输入: child parent Tom Lucy Tom Jack Jone 阅读全文
posted @ 2019-10-13 22:01 茅坤宝骏氹 阅读(0) 评论(0) 推荐(0)
摘要:"数据排序"是许多实际任务执行时要完成的第一项工作,比如学生成绩评比、数据建立索引等。这个实例和数据去重类似,都是先对原始数据进行初步处理,为进一步的数据操作打好基础 1 实例描述 对输入文件中数据进行排序。输入文件中的每行内容均为一个数字,即一个数据。要求在输出中每行有两个间隔的数字,其中,第一个 阅读全文
posted @ 2019-10-13 14:21 茅坤宝骏氹 阅读(0) 评论(0) 推荐(0)
摘要:1 实例描述 对数据文件中的数据进行去重。数据文件中的每行都是一个数据 样例输入如下所示: 1)file1 2012-3-1 a 2012-3-2 b 2012-3-3 c 2012-3-4 d 2012-3-5 a 2012-3-6 b 2012-3-7 c 2012-3-3 c 2)file2 阅读全文
posted @ 2019-10-13 12:10 茅坤宝骏氹 阅读(0) 评论(0) 推荐(0)
摘要:一、排序分组概述 MapReduce中排序和分组在哪里被执行 第3步中需要对不同分区中的数据进行排序和分组,默认情况按照key进行排序和分组 二、排序 在Hadoop默认的排序算法中,只会针对key值进行排序 任务: 数据文件中,如果按照第一列升序排列, 当第一列相同时,第二列升序排列 如果当第一列 阅读全文
posted @ 2019-10-06 12:36 茅坤宝骏氹 阅读(0) 评论(0) 推荐(0)
摘要:一、Shuffle概述 Reduce阶段三个步骤,Shuffle就是一个随机、洗牌操作 Shuffle是什么 针对多个map任务的输出按照不同的分区(Partition)通过网络复制到不同的reduce任务节点上,这个过程就称作为Shuffle。 二、Shuffle过程 (1)Map端 1)在map 阅读全文
posted @ 2019-10-06 12:20 茅坤宝骏氹 阅读(0) 评论(0) 推荐(0)
摘要:一、Partitioner概述 Map阶段总共五个步骤,2就是一个分区操作 哪个key到哪个Reducer的分配过程,是由Partitioner规定的。 二、Hadoop内置Partitioner MapReduce的使用者通常会指定Reduce任务和Reduce任务输出文件的数量(R)。 用户在中 阅读全文
posted @ 2019-10-06 11:41 茅坤宝骏氹 阅读(0) 评论(0) 推荐(0)
摘要:一、Combiner的出现 (1)为什么需要进行Map规约操 作 在上述过程中,我们看到至少两个性能瓶颈: (1)如果我们有10亿个数据,Mapper会生成10亿个键值对在网络间进行传输,但如果我们只是对数据求最大值,那么很明显的Mapper只需要输出它所知道的最大值即可。这样做不仅可以减轻网络压力 阅读全文
posted @ 2019-10-06 11:26 茅坤宝骏氹 阅读(0) 评论(0) 推荐(0)
摘要:Intellij IDEA远程向hadoop集群提交mapreduce作业,需要依赖到hadoop的库,hadoop集群的配置信息,还有本地项目的jar包。 一、软件环境 (1)window本地安装hadoop软件 首先将集群上的hadoop环境下载到本地,本文是在“A:\soft\hadoop-2 阅读全文
posted @ 2019-10-06 10:36 茅坤宝骏氹 阅读(0) 评论(0) 推荐(0)
摘要:一、Mapreduce概述 MapReduce是一个编程模型,用以进行大数据量的计算 二、Hadoop MapReduce (1)MapReduce是什么 Hadoop MapReduce是一个软件框架,基于该框架能够容易地编写应用程序,这些应用程序能够运行在由上千个商用机器组成的大集群上,并以一种 阅读全文
posted @ 2019-10-05 20:19 茅坤宝骏氹 阅读(0) 评论(0) 推荐(0)
摘要:一、编程环境设置 编程使用到idea2018,maven (1)启动集群 在window上启动vmware软件的虚拟机hadoop01,hadoop02,hadoop03。 进入hadoop01虚拟机启动集群,执行命令 start-dfs.sh (2)检查开发环境网络 在window的命令行cmd窗 阅读全文
posted @ 2019-10-04 20:16 茅坤宝骏氹 阅读(0) 评论(0) 推荐(0)
摘要:一、、HDFS 常用类 Configuration 配置 Path 路径 FileSystem 文件系统 Stream 流 IOUtils IO工具 API文档 二、类解析 (1)Configuration 配置文件加载顺序 设置/获取参数方法 (2)Path Path 常用方法 (3)FileSy 阅读全文
posted @ 2019-10-04 19:52 茅坤宝骏氹 阅读(0) 评论(0) 推荐(0)
摘要:转载自 什么是数据分析 什么是数据思维? 「企业数据化管理变革」这本书中对数据思维是这么阐述的:数据思维是根据数据来思考事物的一种思维模式,是一种量化的思维模式,是重视事实、追求真理的思维模式。 很多人陷入了一种误区,认为数据思维就是罗列数据,其实不然,数据思维的重点是要得出定性的结论。 举个简单的 阅读全文
posted @ 2018-05-07 10:43 茅坤宝骏氹 阅读(0) 评论(0) 推荐(0)
摘要:转载自 HDFS的诞生 1牛刀小试 张大胖找了个实习的工作, 第一天上班Bill师傅给他分了个活儿:日志分析。 张大胖拿到了师傅给的日志文件,大概有几十兆,打开一看, 每一行都长得差不多,类似这样: 212.86.142.33 – - [20/Mar/2017:10:21:41 +0800] “GE 阅读全文
posted @ 2018-05-07 10:22 茅坤宝骏氹 阅读(0) 评论(0) 推荐(0)
摘要:转载自 玻璃猫 算法与数据结构 一个故事 在很久很久以前,世界上生活着许多种族,有人类,有矮人,有精灵......他们有着不同的信仰,不同的文化,彼此相安无事。可是,有一个猥琐男却偏偏想要统治整个世界。 如何统治这么多不同文化信仰的种族呢?猥琐男想出一个馊主意,打造出几枚拥有魔力的戒指,免费送给不同 阅读全文
posted @ 2018-04-17 22:37 茅坤宝骏氹 阅读(0) 评论(0) 推荐(0)
摘要:转载自 脑洞有点大的 程序员小灰 什么是MapReduce? MapReduce是一种编程模型,其理论来自Google公司发表的三篇论文(MapReduce,BigTable,GFS)之一,主要应用于海量数据的并行计算。 MapReduce可以分成Map和Reduce两部分理解。 1.Map:映射过 阅读全文
posted @ 2018-04-12 14:16 茅坤宝骏氹 阅读(0) 评论(0) 推荐(0)
摘要:一、hadoop的概念 (1)什么是大数据 大数据是不能用传统的计算技术处理的大型数据集的集合。它不是一个单一的技术或工具,而是涉及的业务和技术的许多领域。 (2)hadoop的定义 Hadoop是一个由Apache基金会所开发的分布式系统基础架构。 Hadoop的框架最核心的设计就是:HDFS和M 阅读全文
posted @ 2017-08-18 09:25 茅坤宝骏氹 阅读(171) 评论(0) 推荐(0)
摘要:一、HDFS dao接口 二、HDFS dao实现类 阅读全文
posted @ 2017-08-14 20:53 茅坤宝骏氹 阅读(376) 评论(0) 推荐(0)