Hadoop - 随笔分类(第2页) - happygril3

partition

摘要：spill溢出前需要对数据进行分区和排序，即会对环形缓冲区里面的每个(k,v)键值对hash一个partition值，相同partition值为同一分区，然会把环形缓冲区中的数据根据partition值和key值两个关键字升序排序；同一partition内的按照key排序； package com. 阅读全文

posted @ 2020-11-17 16:49 happygril3 阅读(478) 评论(0) 推荐(0)

WritableComparable

摘要：WritableComparable继承自Writable和java.lang.Comparable接口，是一个Writable也是一个Comparable，也就是说，既可以序列化，也可以比较！ WritableComparable的实现类之间相互来比较，在Map/Reduce中，任何用作键来使用的阅读全文

posted @ 2020-11-17 16:44 happygril3 阅读(225) 评论(0) 推荐(0)

MapReduce

摘要：2. MAPREDUCE框架结构及核心运行机制 2.1 框架架构一个完整的mapreduce程序在分布式运行时有三类实例进程：1、MRAppMaster(Mapreduce application master)：负责整个程序的过程调度及状态协调2、MapTask：负责map阶段的整个数据处理流程阅读全文

posted @ 2020-11-17 16:32 happygril3 阅读(152) 评论(0) 推荐(0)

InputFormat

摘要：一 InputFormat主要作用： InputFormat抽象类仅有两个抽象方法：List<InputSplit> getSplits()，获取由输入文件计算出输入分片(InputSplit)，解决数据或文件分割成片问题。RecordReader<K,V> createRecordReader( 阅读全文

posted @ 2020-11-13 18:29 happygril3 阅读(190) 评论(0) 推荐(0)

WordCount

摘要：按照mapreduce编程规范，分别编写Mapper，Reducer，Driver。 (1)定义一个mapper类 package com.atguigu.wordCount; import org.apache.hadoop.io.IntWritable; import org.apache.ha 阅读全文

posted @ 2020-11-13 18:16 happygril3 阅读(96) 评论(0) 推荐(0)

NN与2NN的关系解析

摘要：1.NN与2NN的工作机制第一阶段：Namenode的启动 ●第一次启动NameNode格式化后，创建fsimage和edits文件。如果不是第一次启动，直接加载编辑日志和镜像文件到内存。 ●客户端对元数据进行增删改的请求。 ●NameNode记录操作日志，更新滚动日志。 ●NameNode在内存阅读全文

posted @ 2020-11-12 13:38 happygril3 阅读(673) 评论(0) 推荐(0)

HDFS读写流程与API

摘要：一、读写机制客户端访问NameNode请求上传文件； NameNode检查目标文件和目录是否已经存在； NameNode响应客户端是否可以上传；客户端请求NameNode文件块Block01上传服务位置； NameNode响应返回3个DataNode节点；客户端通过输入流建立DataNode0 阅读全文

posted @ 2020-11-11 17:01 happygril3 阅读(123) 评论(0) 推荐(0)

HDFS

摘要：hadoop：适合一次写入，多次读出，不能修改的操作（1）优点：（1）高容错数据自动保存多个副本，通过增加副本的形式，提高容错性若一个符本丢失以后，可以自动回复（2）适合处理大数据数据规模：GB,TB甚至PB文件规模：百万（3）可构建在廉价机器上（2）缺点：（1）不适合低延时的数据访问，如毫阅读全文

posted @ 2020-11-10 17:34 happygril3 阅读(78) 评论(0) 推荐(0)

hadoop集群时间同步

摘要：hadoop102设置为中心服务器，Hadoop103和Hadoop104拉取时间 1. 在服务器上检查时间服务是否安装（全部）（1）查询是否安装ntprpm -qa|grep ntp （2）查看ntp服务是否开启service ntpd status 若开启，则stop servicentpd 阅读全文

posted @ 2020-11-10 16:38 happygril3 阅读(157) 评论(0) 推荐(0)

SSH免密登录配置

摘要：hadoop102免密登录hadoop103 转自:https://zhuanlan.zhihu.com/p/45025702 1.hadoop102生成一对秘钥ssh-keygen -t rsa ① 输入生成密码的命令，ssh-keygen命令是生成秘钥，-t是加密类型，rsa是一种加密方式 ② 阅读全文

posted @ 2020-11-10 10:44 happygril3 阅读(122) 评论(0) 推荐(0)

hadoop集群搭建

摘要：HDFS:NameNode DataNode SecondaryNameNodeYarn:ResourceManegement NodeManagement (1)修改文件 1.core-site.xml <configuration>  <prope 阅读全文

posted @ 2020-11-08 17:33 happygril3 阅读(78) 评论(0) 推荐(0)

三种运行模式

摘要：1.本地运行模式 -默认模式。 -不对配置文件进行修改。 -使用本地文件系统，而不是分布式文件系统。 -Hadoop不会启动NameNode、DataNode、JobTracker、TaskTracker等守护进程，Map()和Reduce()任务作为同一个进程的不同部分来执行的。 -用于对MapR 阅读全文

posted @ 2020-10-31 19:18 happygril3 阅读(735) 评论(0) 推荐(0)

虚拟机安装hadoop

摘要：1.VMware下CentOS虚拟机的创建方法 https://jingyan.baidu.com/article/ff42efa920bef3c19e22028c.html 2.虚拟机网络配置 1.防火墙关闭service iptables stop //服务关闭chkconfig iptable 阅读全文

posted @ 2020-10-31 15:12 happygril3 阅读(284) 评论(0) 推荐(0)

hadoop简介

摘要：1.大数据生态系统 2 大数据部门结构 3 Hadoop入门教程 Hadoop是Apache开源组织的一个分布式计算开源框架，用java语言实现开源软件框架，实现在大量计算机组成的集群中对海量数据进行分布式计算。 Hadoop框架中最核心设计就是：HDFS和MapReduce，HDFS实现存储，而M 阅读全文

posted @ 2020-10-30 16:44 happygril3 阅读(155) 评论(0) 推荐(0)

happygril3

随笔分类 - Hadoop

导航

公告