随笔分类 -  Hadoop

上一页 1 2

partition
摘要:spill溢出前需要对数据进行分区和排序,即会对环形缓冲区里面的每个(k,v)键值对hash一个partition值,相同partition值为同一分区,然会把环形缓冲区中的数据根据partition值和key值两个关键字升序排序;同一partition内的按照key排序; package com. 阅读全文

posted @ 2020-11-17 16:49 happygril3 阅读(467) 评论(0) 推荐(0)

WritableComparable
摘要:WritableComparable继承自Writable和java.lang.Comparable接口,是一个Writable也是一个Comparable,也就是说,既可以序列化,也可以比较! WritableComparable的实现类之间相互来比较,在Map/Reduce中,任何用作键来使用的 阅读全文

posted @ 2020-11-17 16:44 happygril3 阅读(222) 评论(0) 推荐(0)

MapReduce
摘要:2. MAPREDUCE框架结构及核心运行机制 2.1 框架架构 一个完整的mapreduce程序在分布式运行时有三类实例进程:1、MRAppMaster(Mapreduce application master):负责整个程序的过程调度及状态协调2、MapTask:负责map阶段的整个数据处理流程 阅读全文

posted @ 2020-11-17 16:32 happygril3 阅读(133) 评论(0) 推荐(0)

InputFormat
摘要:一 InputFormat主要作用: InputFormat抽象类仅有两个抽象方法:List<InputSplit> getSplits(), 获取由输入文件计算出输入分片(InputSplit),解决数据或文件分割成片问题。RecordReader<K,V> createRecordReader( 阅读全文

posted @ 2020-11-13 18:29 happygril3 阅读(180) 评论(0) 推荐(0)

WordCount
摘要:按照mapreduce编程规范,分别编写Mapper,Reducer,Driver。 (1)定义一个mapper类 package com.atguigu.wordCount; import org.apache.hadoop.io.IntWritable; import org.apache.ha 阅读全文

posted @ 2020-11-13 18:16 happygril3 阅读(92) 评论(0) 推荐(0)

NN与2NN的关系解析
摘要:1.NN与2NN的工作机制 第一阶段:Namenode的启动 ●第一次启动NameNode格式化后,创建fsimage和edits文件。如果不是第一次启动,直接加载编辑日志和镜像文件到内存。 ●客户端对元数据进行增删改的请求。 ●NameNode记录操作日志,更新滚动日志。 ●NameNode在内存 阅读全文

posted @ 2020-11-12 13:38 happygril3 阅读(663) 评论(0) 推荐(0)

HDFS读写流程与API
摘要:一、读写机制 客户端访问NameNode请求上传文件; NameNode检查目标文件和目录是否已经存在; NameNode响应客户端是否可以上传; 客户端请求NameNode文件块Block01上传服务位置; NameNode响应返回3个DataNode节点; 客户端通过输入流建立DataNode0 阅读全文

posted @ 2020-11-11 17:01 happygril3 阅读(121) 评论(0) 推荐(0)

HDFS
摘要:hadoop:适合一次写入,多次读出,不能修改的操作 (1)优点: (1)高容错数据自动保存多个副本,通过增加副本的形式,提高容错性若一个符本丢失以后,可以自动回复(2)适合处理大数据数据规模:GB,TB甚至PB文件规模:百万(3)可构建在廉价机器上 (2)缺点: (1)不适合低延时的数据访问,如毫 阅读全文

posted @ 2020-11-10 17:34 happygril3 阅读(73) 评论(0) 推荐(0)

hadoop集群时间同步
摘要:hadoop102设置为中心服务器,Hadoop103和Hadoop104拉取时间 1. 在服务器上检查时间服务是否安装(全部) (1)查询是否安装ntprpm -qa|grep ntp (2)查看ntp服务是否开启service ntpd status 若开启,则stop servicentpd 阅读全文

posted @ 2020-11-10 16:38 happygril3 阅读(153) 评论(0) 推荐(0)

SSH免密登录配置
摘要:hadoop102免密登录hadoop103 转自:https://zhuanlan.zhihu.com/p/45025702 1.hadoop102生成一对秘钥ssh-keygen -t rsa ① 输入生成密码的命令,ssh-keygen命令是生成秘钥,-t是加密类型,rsa是一种加密方式 ② 阅读全文

posted @ 2020-11-10 10:44 happygril3 阅读(116) 评论(0) 推荐(0)

hadoop集群搭建
摘要:HDFS:NameNode DataNode SecondaryNameNodeYarn:ResourceManegement NodeManagement (1)修改文件 1.core-site.xml <configuration> <!--指定HDFS中NameNode地址--> <prope 阅读全文

posted @ 2020-11-08 17:33 happygril3 阅读(74) 评论(0) 推荐(0)

三种运行模式
摘要:1.本地运行模式 -默认模式。 -不对配置文件进行修改。 -使用本地文件系统,而不是分布式文件系统。 -Hadoop不会启动NameNode、DataNode、JobTracker、TaskTracker等守护进程,Map()和Reduce()任务作为同一个进程的不同部分来执行的。 -用于对MapR 阅读全文

posted @ 2020-10-31 19:18 happygril3 阅读(710) 评论(0) 推荐(0)

虚拟机安装hadoop
摘要:1.VMware下CentOS虚拟机的创建方法 https://jingyan.baidu.com/article/ff42efa920bef3c19e22028c.html 2.虚拟机网络配置 1.防火墙关闭service iptables stop //服务关闭chkconfig iptable 阅读全文

posted @ 2020-10-31 15:12 happygril3 阅读(278) 评论(0) 推荐(0)

hadoop简介
摘要:1.大数据生态系统 2 大数据部门结构 3 Hadoop入门教程 Hadoop是Apache开源组织的一个分布式计算开源框架,用java语言实现开源软件框架,实现在大量计算机组成的集群中对海量数据进行分布式计算。 Hadoop框架中最核心设计就是:HDFS和MapReduce,HDFS实现存储,而M 阅读全文

posted @ 2020-10-30 16:44 happygril3 阅读(147) 评论(0) 推荐(0)

上一页 1 2

导航