随笔分类 - Hadoop学习
摘要:深入理解map的几个阶段是怎样执行的。
阅读全文
摘要:需求:单表关联问题。从文件中孩子和父母的关系挖掘出孙子和爷奶关系 样板:child-parent.txt xiaoming daxiong daxiong alice daxiong jack 输出:xiaoming alice xiaoming jack 分析设计: mapper部分设计: 1、<
阅读全文
摘要:需求:求多门课程的平均值。 样板:math.txt zhangsan 90 lisi 88 wanghua 80 china.txt zhangsan 80lisi 90wanghua 88 输出:zhangsan 85 lisi 89 wanghua 84 分析部分: mapper部分分析: 1、
阅读全文
摘要:需求:对文件中的数据进行排序。 样本:sort.log 10 13 10 20 输出:1 10 2 10 3 13 4 20 分析部分: mapper分析: 1、<k1,v1>k1代表:行位置编号,v1代表:一行数据 2、<k2,v2>k2代表:一行数据,v2代表:此处为1. reduce分析: 3
阅读全文
摘要:在HDFS中,提供了fsck命令,用于检查HDFS上文件和目录的健康状态、获取文件的block块信息和位置信息等。 具体命令介绍: -move: 移动损坏的文件到/lost+found目录下 -delete: 删除损坏的文件 -openforwrite: 输出检测中的正在被写的文件 -list-co
阅读全文
摘要:需求:去掉文件中重复的数据。 样板:data.log 2016-3-1 a 2016-3-2 b 2016-3-2 c 2016-3-2 b 输出结果: 2016-3-1 a 2016-3-2 b 2016-3-2 c 解决思路:取出一行数据,经过mapper处理后,利用MapReduce默认的将相
阅读全文
摘要:需求:求每年当中最高的温度 样本:temp.log 2016080623 2016072330 2015030420 输出结果:2016 30 2015 20 MapReduce分析设计: Mapper分析设计: 1、将文件分割成键值队<k1,v1>,k1代表:行位置,v1代表:一行数据。 2、将这
阅读全文
摘要:需求:统计一个文件中所有单词出现的个数。 样板:word.log文件中有hadoop hive hbase hadoop hive 输出:hadoop 2 hive 2 hbase 1 MapReduce设计方式: 一、Map过程<k,v>键值队的设计: 1、按行将文本文件切割成 <k1,v1>,k
阅读全文
摘要:在运行hadoop的程序时,向hdfs中写文件时候,抛出异常信息如下:Caused by: org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.security.AccessControlException): Permission den
阅读全文
摘要:第一部分:什么是RPC RPC (Remote Procedure Call Protocol) – 远程过程协议调用 。通过 RPC 我们可以从网络上的计算机请求服务,而不需要了 解底层网络协议。 Hadoop 底层的交互都是通过 rpc 进行的。例 如: datanode 和 namenode
阅读全文
摘要:前言 前言 HDFS 是一个能够面向大规模数据使用的,可进行扩展的文件存储与传递系统。是一种允许文件通过网络在多台主机上分享的文件系统,可让多机器上的多用户分享文件和 存储空间。让实际上是通过网络来访问文件的动作,由程序与用户看来,就像是访问本地的磁盘一般。即使系统中有某些节点脱机,整体来说系统仍然
阅读全文
摘要:YARN 中的应用程序提交 本节讨论在应用程序提交到 YARN 集群时,ResourceManager、ApplicationMaster、NodeManagers 和容器如何相互交互。下图显示了一个例子。 假设用户采用与 MRv1 中相同的方式键入 hadoop jar 命令,将应用程序提交到 R
阅读全文
摘要:YARN:下一代 Hadoop 计算平台 我们现在稍微改变一下用辞。以下名称的改动有助于更好地了解 YARN 的设计: ResourceManager 代替集群管理器 ApplicationMaster 代替一个专用且短暂的 JobTracker NodeManager 代替 TaskTracker
阅读全文
摘要:在 Hadoop MapReduce 中,JobTracker 具有两种不同的职责: 管理集群中的计算资源,这涉及到维护活动节点列表、可用和占用的 map 和 reduce slots 列表,以及依据所选的调度策略将可用 slots 分配给合适的作业和任务 协调在集群上运行的所有任务,这涉及到指导
阅读全文
摘要:在 MapReduce 框架中,作业执行受两种类型的进程控制: 一个称为 JobTracker 的主要进程,它协调在集群上运行的所有作业,分配要在 TaskTracker 上运行的 map 和 reduce 任务。 许多称为 TaskTracker 的下级进程,它们运行分配的任务并定期向 JobTr
阅读全文
摘要:还是hadoop专有名词进行说明。 Hadoop框架中最核心设计就是:HDFS和MapReduce.还有yarn HDFS提供了海量数据的存储。(分布式文件系统) MapReduce提供了对数据的计算.(分布式计算框架) Hadoop的集群主要由 NameNode,DataNode,Secondar
阅读全文

浙公网安备 33010602011771号