上一页 1 ··· 3 4 5 6 7 8 9 10 11 ··· 56 下一页

2020年11月17日

摘要: spill溢出前需要对数据进行分区和排序,即会对环形缓冲区里面的每个(k,v)键值对hash一个partition值,相同partition值为同一分区,然会把环形缓冲区中的数据根据partition值和key值两个关键字升序排序;同一partition内的按照key排序; package com. 阅读全文
posted @ 2020-11-17 16:49 happygril3 阅读(470) 评论(0) 推荐(0)
摘要: WritableComparable继承自Writable和java.lang.Comparable接口,是一个Writable也是一个Comparable,也就是说,既可以序列化,也可以比较! WritableComparable的实现类之间相互来比较,在Map/Reduce中,任何用作键来使用的 阅读全文
posted @ 2020-11-17 16:44 happygril3 阅读(224) 评论(0) 推荐(0)
摘要: 2. MAPREDUCE框架结构及核心运行机制 2.1 框架架构 一个完整的mapreduce程序在分布式运行时有三类实例进程:1、MRAppMaster(Mapreduce application master):负责整个程序的过程调度及状态协调2、MapTask:负责map阶段的整个数据处理流程 阅读全文
posted @ 2020-11-17 16:32 happygril3 阅读(136) 评论(0) 推荐(0)

2020年11月13日

摘要: 一 InputFormat主要作用: InputFormat抽象类仅有两个抽象方法:List<InputSplit> getSplits(), 获取由输入文件计算出输入分片(InputSplit),解决数据或文件分割成片问题。RecordReader<K,V> createRecordReader( 阅读全文
posted @ 2020-11-13 18:29 happygril3 阅读(182) 评论(0) 推荐(0)
摘要: 按照mapreduce编程规范,分别编写Mapper,Reducer,Driver。 (1)定义一个mapper类 package com.atguigu.wordCount; import org.apache.hadoop.io.IntWritable; import org.apache.ha 阅读全文
posted @ 2020-11-13 18:16 happygril3 阅读(95) 评论(0) 推荐(0)
摘要: 统计一堆文件中单词出现的个数(WordCount案例) (1)定义一个mapper类 package com.atguigu.wordCount; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.LongWri 阅读全文
posted @ 2020-11-13 11:47 happygril3 阅读(82) 评论(0) 推荐(0)

2020年11月12日

摘要: 1.NN与2NN的工作机制 第一阶段:Namenode的启动 ●第一次启动NameNode格式化后,创建fsimage和edits文件。如果不是第一次启动,直接加载编辑日志和镜像文件到内存。 ●客户端对元数据进行增删改的请求。 ●NameNode记录操作日志,更新滚动日志。 ●NameNode在内存 阅读全文
posted @ 2020-11-12 13:38 happygril3 阅读(666) 评论(0) 推荐(0)

2020年11月11日

摘要: 一、读写机制 客户端访问NameNode请求上传文件; NameNode检查目标文件和目录是否已经存在; NameNode响应客户端是否可以上传; 客户端请求NameNode文件块Block01上传服务位置; NameNode响应返回3个DataNode节点; 客户端通过输入流建立DataNode0 阅读全文
posted @ 2020-11-11 17:01 happygril3 阅读(122) 评论(0) 推荐(0)

2020年11月10日

摘要: hadoop:适合一次写入,多次读出,不能修改的操作 (1)优点: (1)高容错数据自动保存多个副本,通过增加副本的形式,提高容错性若一个符本丢失以后,可以自动回复(2)适合处理大数据数据规模:GB,TB甚至PB文件规模:百万(3)可构建在廉价机器上 (2)缺点: (1)不适合低延时的数据访问,如毫 阅读全文
posted @ 2020-11-10 17:34 happygril3 阅读(74) 评论(0) 推荐(0)
摘要: hadoop102设置为中心服务器,Hadoop103和Hadoop104拉取时间 1. 在服务器上检查时间服务是否安装(全部) (1)查询是否安装ntprpm -qa|grep ntp (2)查看ntp服务是否开启service ntpd status 若开启,则stop servicentpd 阅读全文
posted @ 2020-11-10 16:38 happygril3 阅读(154) 评论(0) 推荐(0)
上一页 1 ··· 3 4 5 6 7 8 9 10 11 ··· 56 下一页

导航