hadoop - 随笔分类(第2页) - 茅坤宝骏氹

Hadoop入门（十六）Mapreduce的单表关联程序

摘要："单表关联"要求从给出的数据中寻找所关心的数据，它是对原始数据所包含信息的挖掘 1 实例描述给出child-parent（孩子——父母）表，要求输出grandchild-grandparent（孙子——祖父母）表样例输入： child parent Tom Lucy Tom Jack Jone 阅读全文

posted @ 2019-10-13 22:01 茅坤宝骏氹阅读(0) 评论(0) 推荐(0)

Hadoop入门（十五）Mapreduce的数据排序程序

摘要："数据排序"是许多实际任务执行时要完成的第一项工作，比如学生成绩评比、数据建立索引等。这个实例和数据去重类似，都是先对原始数据进行初步处理，为进一步的数据操作打好基础 1 实例描述对输入文件中数据进行排序。输入文件中的每行内容均为一个数字，即一个数据。要求在输出中每行有两个间隔的数字，其中，第一个阅读全文

posted @ 2019-10-13 14:21 茅坤宝骏氹阅读(0) 评论(0) 推荐(0)

Hadoop入门（十四）Mapreduce的数据去重程序

摘要：1 实例描述对数据文件中的数据进行去重。数据文件中的每行都是一个数据样例输入如下所示： 1）file1 2012-3-1 a 2012-3-2 b 2012-3-3 c 2012-3-4 d 2012-3-5 a 2012-3-6 b 2012-3-7 c 2012-3-3 c 2）file2 阅读全文

posted @ 2019-10-13 12:10 茅坤宝骏氹阅读(0) 评论(0) 推荐(0)

Hadoop入门（十）Mapreduce高级shuffle之Sort和Group

摘要：一、排序分组概述 MapReduce中排序和分组在哪里被执行第3步中需要对不同分区中的数据进行排序和分组，默认情况按照key进行排序和分组二、排序在Hadoop默认的排序算法中，只会针对key值进行排序任务：数据文件中，如果按照第一列升序排列，当第一列相同时，第二列升序排列如果当第一列阅读全文

posted @ 2019-10-06 12:36 茅坤宝骏氹阅读(0) 评论(0) 推荐(0)

Hadoop入门（七）Mapreduce高级Shuffle

摘要：一、Shuffle概述 Reduce阶段三个步骤，Shuffle就是一个随机、洗牌操作 Shuffle是什么针对多个map任务的输出按照不同的分区（Partition）通过网络复制到不同的reduce任务节点上，这个过程就称作为Shuffle。二、Shuffle过程（1）Map端 1）在map 阅读全文

posted @ 2019-10-06 12:20 茅坤宝骏氹阅读(0) 评论(0) 推荐(0)

Hadoop入门（八）Mapreduce高级shuffle之Partitioner

摘要：一、Partitioner概述 Map阶段总共五个步骤，2就是一个分区操作哪个key到哪个Reducer的分配过程，是由Partitioner规定的。二、Hadoop内置Partitioner MapReduce的使用者通常会指定Reduce任务和Reduce任务输出文件的数量（R）。用户在中阅读全文

posted @ 2019-10-06 11:41 茅坤宝骏氹阅读(0) 评论(0) 推荐(0)

Hadoop入门（九）Mapreduce高级shuffle之Combiner

摘要：一、Combiner的出现（1）为什么需要进行Map规约操作在上述过程中，我们看到至少两个性能瓶颈：（1）如果我们有10亿个数据，Mapper会生成10亿个键值对在网络间进行传输，但如果我们只是对数据求最大值，那么很明显的Mapper只需要输出它所知道的最大值即可。这样做不仅可以减轻网络压力阅读全文

posted @ 2019-10-06 11:26 茅坤宝骏氹阅读(0) 评论(0) 推荐(0)

Hadoop入门（十二）Intellij IDEA远程向hadoop集群提交mapreduce作业

摘要：Intellij IDEA远程向hadoop集群提交mapreduce作业，需要依赖到hadoop的库，hadoop集群的配置信息，还有本地项目的jar包。一、软件环境（1）window本地安装hadoop软件首先将集群上的hadoop环境下载到本地，本文是在“A:\soft\hadoop-2 阅读全文

posted @ 2019-10-06 10:36 茅坤宝骏氹阅读(0) 评论(0) 推荐(0)

Hadoop入门（六）Mapreduce

摘要：一、Mapreduce概述 MapReduce是一个编程模型，用以进行大数据量的计算二、Hadoop MapReduce （1）MapReduce是什么 Hadoop MapReduce是一个软件框架，基于该框架能够容易地编写应用程序，这些应用程序能够运行在由上千个商用机器组成的大集群上，并以一种阅读全文

posted @ 2019-10-05 20:19 茅坤宝骏氹阅读(0) 评论(0) 推荐(0)

Hadoop入门（四）HDFS编程

摘要：一、编程环境设置编程使用到idea2018，maven （1）启动集群在window上启动vmware软件的虚拟机hadoop01，hadoop02，hadoop03。进入hadoop01虚拟机启动集群，执行命令 start-dfs.sh （2）检查开发环境网络在window的命令行cmd窗阅读全文

posted @ 2019-10-04 20:16 茅坤宝骏氹阅读(0) 评论(0) 推荐(0)

Hadoop入门（三）HDFS API

摘要：一、、HDFS 常用类 Configuration 配置 Path 路径 FileSystem 文件系统 Stream 流 IOUtils IO工具 API文档二、类解析（1）Configuration 配置文件加载顺序设置/获取参数方法（2）Path Path 常用方法（3）FileSy 阅读全文

posted @ 2019-10-04 19:52 茅坤宝骏氹阅读(0) 评论(0) 推荐(0)

什么是数据分析

摘要：转载自什么是数据分析什么是数据思维？「企业数据化管理变革」这本书中对数据思维是这么阐述的：数据思维是根据数据来思考事物的一种思维模式，是一种量化的思维模式，是重视事实、追求真理的思维模式。很多人陷入了一种误区，认为数据思维就是罗列数据，其实不然，数据思维的重点是要得出定性的结论。举个简单的阅读全文

posted @ 2018-05-07 10:43 茅坤宝骏氹阅读(0) 评论(0) 推荐(0)

HDFS的诞生

摘要：转载自 HDFS的诞生 1牛刀小试张大胖找了个实习的工作，第一天上班Bill师傅给他分了个活儿：日志分析。张大胖拿到了师傅给的日志文件，大概有几十兆，打开一看，每一行都长得差不多，类似这样： 212.86.142.33 – - [20/Mar/2017:10:21:41 +0800] “GE 阅读全文

posted @ 2018-05-07 10:22 茅坤宝骏氹阅读(0) 评论(0) 推荐(0)

漫画：什么是数据仓库

摘要：转载自玻璃猫算法与数据结构一个故事在很久很久以前，世界上生活着许多种族，有人类，有矮人，有精灵......他们有着不同的信仰，不同的文化，彼此相安无事。可是，有一个猥琐男却偏偏想要统治整个世界。如何统治这么多不同文化信仰的种族呢？猥琐男想出一个馊主意，打造出几枚拥有魔力的戒指，免费送给不同阅读全文

posted @ 2018-04-17 22:37 茅坤宝骏氹阅读(0) 评论(0) 推荐(0)

漫画：什么是MapReduce

摘要：转载自脑洞有点大的程序员小灰什么是MapReduce？ MapReduce是一种编程模型，其理论来自Google公司发表的三篇论文（MapReduce，BigTable，GFS）之一，主要应用于海量数据的并行计算。 MapReduce可以分成Map和Reduce两部分理解。 1.Map：映射过阅读全文

posted @ 2018-04-12 14:16 茅坤宝骏氹阅读(0) 评论(0) 推荐(0)

Hadoop入门（一）概念与单机安装

摘要：一、hadoop的概念（1）什么是大数据大数据是不能用传统的计算技术处理的大型数据集的集合。它不是一个单一的技术或工具，而是涉及的业务和技术的许多领域。（2）hadoop的定义 Hadoop是一个由Apache基金会所开发的分布式系统基础架构。 Hadoop的框架最核心的设计就是：HDFS和M 阅读全文

posted @ 2017-08-18 09:25 茅坤宝骏氹阅读(171) 评论(0) 推荐(0)

HDFS 的dao

摘要：一、HDFS dao接口二、HDFS dao实现类阅读全文

posted @ 2017-08-14 20:53 茅坤宝骏氹阅读(376) 评论(0) 推荐(0)

茅坤宝骏氹

随笔分类 - hadoop

公告