happygril3

partition

摘要： spill溢出前需要对数据进行分区和排序，即会对环形缓冲区里面的每个(k,v)键值对hash一个partition值，相同partition值为同一分区，然会把环形缓冲区中的数据根据partition值和key值两个关键字升序排序；同一partition内的按照key排序； package com. 阅读全文

posted @ 2020-11-17 16:49 happygril3 阅读(479) 评论(0) 推荐(0)

WritableComparable

摘要： WritableComparable继承自Writable和java.lang.Comparable接口，是一个Writable也是一个Comparable，也就是说，既可以序列化，也可以比较！ WritableComparable的实现类之间相互来比较，在Map/Reduce中，任何用作键来使用的阅读全文

posted @ 2020-11-17 16:44 happygril3 阅读(225) 评论(0) 推荐(0)

MapReduce

摘要： 2. MAPREDUCE框架结构及核心运行机制 2.1 框架架构一个完整的mapreduce程序在分布式运行时有三类实例进程：1、MRAppMaster(Mapreduce application master)：负责整个程序的过程调度及状态协调2、MapTask：负责map阶段的整个数据处理流程阅读全文

posted @ 2020-11-17 16:32 happygril3 阅读(153) 评论(0) 推荐(0)

InputFormat

摘要：一 InputFormat主要作用： InputFormat抽象类仅有两个抽象方法：List<InputSplit> getSplits()，获取由输入文件计算出输入分片(InputSplit)，解决数据或文件分割成片问题。RecordReader<K,V> createRecordReader( 阅读全文

posted @ 2020-11-13 18:29 happygril3 阅读(192) 评论(0) 推荐(0)

WordCount

摘要：按照mapreduce编程规范，分别编写Mapper，Reducer，Driver。 (1)定义一个mapper类 package com.atguigu.wordCount; import org.apache.hadoop.io.IntWritable; import org.apache.ha 阅读全文

posted @ 2020-11-13 18:16 happygril3 阅读(97) 评论(0) 推荐(0)

WordCount

摘要：统计一堆文件中单词出现的个数（WordCount案例）（1）定义一个mapper类 package com.atguigu.wordCount; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.LongWri 阅读全文

posted @ 2020-11-13 11:47 happygril3 阅读(91) 评论(0) 推荐(0)

NN与2NN的关系解析

摘要： 1.NN与2NN的工作机制第一阶段：Namenode的启动 ●第一次启动NameNode格式化后，创建fsimage和edits文件。如果不是第一次启动，直接加载编辑日志和镜像文件到内存。 ●客户端对元数据进行增删改的请求。 ●NameNode记录操作日志，更新滚动日志。 ●NameNode在内存阅读全文

posted @ 2020-11-12 13:38 happygril3 阅读(673) 评论(0) 推荐(0)

HDFS读写流程与API

摘要：一、读写机制客户端访问NameNode请求上传文件； NameNode检查目标文件和目录是否已经存在； NameNode响应客户端是否可以上传；客户端请求NameNode文件块Block01上传服务位置； NameNode响应返回3个DataNode节点；客户端通过输入流建立DataNode0 阅读全文

posted @ 2020-11-11 17:01 happygril3 阅读(124) 评论(0) 推荐(0)

HDFS

摘要： hadoop：适合一次写入，多次读出，不能修改的操作（1）优点：（1）高容错数据自动保存多个副本，通过增加副本的形式，提高容错性若一个符本丢失以后，可以自动回复（2）适合处理大数据数据规模：GB,TB甚至PB文件规模：百万（3）可构建在廉价机器上（2）缺点：（1）不适合低延时的数据访问，如毫阅读全文

posted @ 2020-11-10 17:34 happygril3 阅读(79) 评论(0) 推荐(0)

hadoop集群时间同步

摘要： hadoop102设置为中心服务器，Hadoop103和Hadoop104拉取时间 1. 在服务器上检查时间服务是否安装（全部）（1）查询是否安装ntprpm -qa|grep ntp （2）查看ntp服务是否开启service ntpd status 若开启，则stop servicentpd 阅读全文

posted @ 2020-11-10 16:38 happygril3 阅读(157) 评论(0) 推荐(0)

导航

公告