Hadoop学习笔记 - 随笔分类 - Simon-Lau

MapReduce ——ReduceTask阶段源码分析

摘要：对ReduceTask最宏观的理解也应该包括三个阶段：数据输入(input)，数据计算（reduce），数据输出（output）下边代码是大数据开发hello world Reduce方法： public class WcReducer extends Reducer<Text, IntWrita 阅读全文

posted @ 2021-06-11 15:41 Simon-Lau 阅读(261) 评论(0) 推荐(0)

MapReduce —— MapTask阶段源码分析（Output环节）

摘要：Dream car 镇楼 ~ ！接上一节Input环节，接下来分析 output环节。代码在runNewMapper()方法中： private <INKEY,INVALUE,OUTKEY,OUTVALUE> void runNewMapper(final JobConf job,final Ta 阅读全文

posted @ 2021-06-11 10:33 Simon-Lau 阅读(274) 评论(0) 推荐(0)

MapReduce——移动数据不如移动计算

摘要：备忘 Cli： 1、会根据每次计算的数据，咨询NN元数据（block）计算：split得到一个切片清单；这样map的数量就有了。Split时逻辑的，block是物理的。block身上有（offset,location）,split和block之间有映射关系。结果：split包含偏移量，以及spl 阅读全文

posted @ 2021-06-10 18:43 Simon-Lau 阅读(401) 评论(0) 推荐(0)

MapReduce —— MapTask阶段源码分析（Input环节）

摘要：不得不说阅读源码的过程，极其痛苦。Dream Car 镇楼 ~ ！虽说整个MapReduce过程也就只有Map阶段和Reduce阶段，但是仔细想想，在Map阶段要做哪些事情？这一阶段具体应该包含数据输入(input)，数据计算(map)，数据输出(output)，这三个步骤的划分是非常符合思维习阅读全文

posted @ 2021-06-10 18:30 Simon-Lau 阅读(379) 评论(0) 推荐(0)

MapReduce——客户端提交任务源码分析

摘要：计算向数据移动 MR程序并不会在客户端执行任何的计算操作，它是为计算工作做好准备，例如计算出切片信息，直接影响到Map任务的并行度。在Driver中提交任务时，会写到这样的语句： boolean result = job.waitForCompletion(true); 进入到waitForCom 阅读全文

posted @ 2021-06-09 16:24 Simon-Lau 阅读(296) 评论(0) 推荐(1)

NameNode和SecondaryNameNode角色功能分析

摘要：0、关于HDFS的角色在HDFS集群中，根据HDFS的组织架构，可以看出主要的角色包括Client、NameNode、DataNode、SecondaryNameNode ~ Client：客户端文件切分：文件上传至HDFS集群时，Client将文件切分成一个个Block上传；与NameNod 阅读全文

posted @ 2021-06-02 10:16 Simon-Lau 阅读(590) 评论(0) 推荐(0)

记一次关闭Hadoop时no namenode to stop异常

摘要：记一次关闭Hadoop时no namenode to stop异常在自己的虚拟机环境上跑着hadoop集群，一直正常运行着，不用的时候直接挂起虚拟机，今天需要做些调整，但是发现集群突然无法正常关闭了。遂祭出百度大法~：大家都知道，关闭集群的命令是和`stop yarn.sh`,然鹅我执行完阅读全文

posted @ 2019-10-25 23:49 Simon-Lau 阅读(1952) 评论(1) 推荐(1)

HDFS学习笔记（一）——概述

摘要：1. HDFS产出的背景及定义 1.1 HDFS产生的背景随着数据量越来越大，在一个操作系统存不下所有的数据，那么就分配到更多的操作系统管理的磁盘中，但是不方便管理和维护，迫切需要一种系统来管理多台机器上的文件，这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。 1.2 HDFS的阅读全文

posted @ 2019-10-25 22:32 Simon-Lau 阅读(590) 评论(0) 推荐(1)

三秋叶

随笔分类 - Hadoop学习笔记

公告