11 2020 档案

摘要:ZooKeeper API的基础知识 与ZooKeeper集合进行交互的应用程序称为 ZooKeeper客户端或简称客户端。 Znode是ZooKeeper集合的核心组件,ZooKeeper API提供了一小组方法使用ZooKeeper集合来操纵znode的所有细节。 客户端应该遵循以步骤,与Zoo 阅读全文

posted @ 2020-11-30 16:14 happygril3 阅读(158) 评论(0) 推荐(0)

摘要:Zookeeper使用了Zookeeper Atomic Broadcast(ZAB,Zookeeper原子广播协议)的协议作为其数据一致性的核心算法。 ZAB协议是为Zookeeper专门设计的一种支持崩溃恢复的广播协议。 ZAB一些包括两种基本的模式:崩溃恢复和消息广播。 事务Proposal的 阅读全文

posted @ 2020-11-30 14:58 happygril3 阅读(169) 评论(0) 推荐(0)

摘要:1.ZooKeeper服务命令 1. 启动ZK服务: sh bin/zkServer.sh start 2. 查看ZK服务状态: sh bin/zkServer.sh status 3. 停止ZK服务: sh bin/zkServer.sh stop 4. 重启ZK服务: sh bin/zkServ 阅读全文

posted @ 2020-11-25 18:58 happygril3 阅读(241) 评论(0) 推荐(0)

摘要:1.概述 Zookeeper是一个分布式协调服务的开源框架。主要用来解决分布式集群中应用系统的一致性问题。 ZooKeeper本质上是一个分布式的小文件存储系统。提供基于类似于文件系统的目录树方式的数据存储,并且可以对树中的节点进行有效管理。从而用来维护和监控存储的数据的状态变化。通过监控这些数据状 阅读全文

posted @ 2020-11-25 16:32 happygril3 阅读(123) 评论(0) 推荐(0)

摘要:1. MapReduce 跑的慢的原因 (1)计算机性能:CPU,内存,磁盘健康,网络 (2)I/O操作 数据倾斜 map和reduce设置不合理 map运行时间太长,导致reduce等待过久 小文件太多:大量的小文件会产生大量的Map任务,增大Map任务装在次数,而任务的装载比较耗时,导致MP较慢 阅读全文

posted @ 2020-11-25 15:28 happygril3 阅读(202) 评论(0) 推荐(0)

摘要:1.Yarn资源调度器 在Yarn中有三种调度器可以选择:FIFO Scheduler ,Capacity Scheduler,FairS cheduler。 (1)FIFO Scheduler 把应用按提交的顺序排成一个队列,这是一个先进先出队列,在进行资源分配的时候,先给队列中最头上的应用进行分 阅读全文

posted @ 2020-11-25 13:52 happygril3 阅读(123) 评论(0) 推荐(0)

摘要:1.压缩 ​ 压缩技术能够有效减少底层存储系统(HDFS)读写字节数。压缩提高了网络带宽和磁盘空间的效率。 ​ 鉴于磁盘I/O和网络带宽是Hadoop的宝贵资源,数据压缩对于节省资源、最小化磁盘I/O和网络传输非常有帮助。 ​ 压缩Mapreduce的一种优化策略:通过压缩编码对Mapper或者Re 阅读全文

posted @ 2020-11-25 10:03 happygril3 阅读(651) 评论(0) 推荐(0)

摘要:1.YARN-HA工作机制 2.YARN-HA配置 配置yarn-site.xml <configuration> <!-- Site specific YARN configuration properties --> <!--reduce数据的获取方式--> <property> <name>y 阅读全文

posted @ 2020-11-23 17:15 happygril3 阅读(108) 评论(0) 推荐(0)

摘要:1.复制hadoop文件到目录ha cp -r zookeeper-3.4.10/ ha 2.修改配置文件:core-site.xml <configuration> <!--把两个Namenode地址组装成一个集群mycluster--> <property> <name>fs.defaultFS 阅读全文

posted @ 2020-11-22 19:20 happygril3 阅读(223) 评论(0) 推荐(0)

摘要:1.下载zookeeper-3.4.10.tar.gz 2.压缩zookeeper-3.4.10.tar.gz 3.删除文件 rm -r data logs 4.创建目录 mkdir zkData /opt/module/zookeeper-3.4.10/zkData 5.修改配置文件 zookee 阅读全文

posted @ 2020-11-22 16:09 happygril3 阅读(87) 评论(0) 推荐(0)

摘要:1.Hadoop HA简介及工作原理 Hadoop NameNode官方开始支持HA集群默认是从2.0开始,之前的版本均是不支持NameNode HA的高可用的。 1.1 Hadoop HA简介 Hadoop-HA集群运作机制介绍 HA即高可用(7*24小时不中断服务) 实现高可用最关键的是消除单点 阅读全文

posted @ 2020-11-22 14:36 happygril3 阅读(728) 评论(0) 推荐(0)

摘要:1.输入数据接口:InputFormat (1)Text:文件按照行划分,key就是这一行在文件中的偏移量,value就是这一行文本 (2)FiexedLength:读取输入文件的固定长度的记录,这种文件不该是文本文件,二进制文件比较多 (3)KeyValue:文件按照行分割,按分隔符把一行数据切割 阅读全文

posted @ 2020-11-22 12:17 happygril3 阅读(82) 评论(0) 推荐(0)

摘要:package com.atguigu.etl; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.NullWritable; impo 阅读全文

posted @ 2020-11-22 11:33 happygril3 阅读(83) 评论(0) 推荐(0)

摘要:Mapjoin1.适用于一张表十分小(小于15M,HIVE[25M]),一张表很大得场景2.map端完成join,不需要reduce,不需要shuffer(分组全排序),不需要数据倾斜 package com.atguigu.mapJoin; import org.apache.hadoop.con 阅读全文

posted @ 2020-11-22 11:01 happygril3 阅读(261) 评论(0) 推荐(0)

摘要:Mapreduce实例——Reduce端join 原理 在Reudce端进行Join连接是MapReduce框架进行表之间Join操作最为常见的模式。 1.Reduce端Join实现原理 (1)Map端的主要工作,为来自不同表(文件)的key/value对打标签以区别不同来源的记录。然后用连接字段作 阅读全文

posted @ 2020-11-20 18:04 happygril3 阅读(259) 评论(0) 推荐(0)

摘要:在MapReduce中,OutputFormat描述经reducer处理后输出的数据的格式,将用户提供的key/value键值对写入到特定格式的文件中 TextOutputFormat,输出到纯文本文件,格式为 key + " " + value。 DBOutputFormat,输出到DB Sequ 阅读全文

posted @ 2020-11-20 09:44 happygril3 阅读(157) 评论(0) 推荐(0)

摘要:package com.atguigu.groupingComparator; import org.apache.hadoop.io.WritableComparable; import java.io.DataInput; import java.io.DataOutput; import ja 阅读全文

posted @ 2020-11-20 09:40 happygril3 阅读(242) 评论(0) 推荐(0)

摘要:(1)针对循环的优化 每次你调用str.upper, Python都会计算这个式子的值。然而,如果你把这个求值赋值给一个变量,那么求值的结果就能提前知道,Python程序就能运行得更快。 因此,关键就是尽可能减小Python在循环中的工作量。因为Python解释执行的特性,在上面的例子中会大大减慢它 阅读全文

posted @ 2020-11-18 15:34 happygril3 阅读(375) 评论(0) 推荐(0)

摘要:__new__是用来创造一个类的实例的(constructor) __init__是用来初始化一个实例的(initializer)。 class newStyleClass(object): def __new__(cls): print("__new__ is called") return su 阅读全文

posted @ 2020-11-18 14:59 happygril3 阅读(90) 评论(0) 推荐(0)

摘要:字典是通过哈希表实现的。字典也被称为哈希数组等。 字典 哈希数组 键 (哈希函数)--数组索引 值 数组值 哈希函数的目的是使键均匀地分布在数组中,并且可以在内存中以O(1)的时间复杂度进行寻址,从而实现快速查找和修改。 哈希表中哈希函数的设计困难在于将数据均匀分布在哈希表中,从而尽量减少哈希碰撞和 阅读全文

posted @ 2020-11-18 14:08 happygril3 阅读(1228) 评论(0) 推荐(0)

摘要:Python的GC模块 主要运用了“引用计数”(reference counting)来跟踪和回收垃圾。 在引用计数的基础上,还可以通过“标记-清除”(mark and sweep)解决容器对象可能产生的循环引用的问题。 通过“分代回收”(generation collection)以空间换取时间来 阅读全文

posted @ 2020-11-18 13:41 happygril3 阅读(126) 评论(0) 推荐(0)

摘要:Hadoop的key和value的传递序列化需要涉及两个重要的接口Writable和WritableComparable: WritableComparable比Writable多了一个compareTo方法,用来判断key是否唯一或者说是不是相同。 Hadoop为Key的数据类型必须实现Writa 阅读全文

posted @ 2020-11-17 16:56 happygril3 阅读(89) 评论(0) 推荐(0)

摘要:spill溢出前需要对数据进行分区和排序,即会对环形缓冲区里面的每个(k,v)键值对hash一个partition值,相同partition值为同一分区,然会把环形缓冲区中的数据根据partition值和key值两个关键字升序排序;同一partition内的按照key排序; package com. 阅读全文

posted @ 2020-11-17 16:49 happygril3 阅读(483) 评论(0) 推荐(0)

摘要:WritableComparable继承自Writable和java.lang.Comparable接口,是一个Writable也是一个Comparable,也就是说,既可以序列化,也可以比较! WritableComparable的实现类之间相互来比较,在Map/Reduce中,任何用作键来使用的 阅读全文

posted @ 2020-11-17 16:44 happygril3 阅读(228) 评论(0) 推荐(0)

摘要:2. MAPREDUCE框架结构及核心运行机制 2.1 框架架构 一个完整的mapreduce程序在分布式运行时有三类实例进程:1、MRAppMaster(Mapreduce application master):负责整个程序的过程调度及状态协调2、MapTask:负责map阶段的整个数据处理流程 阅读全文

posted @ 2020-11-17 16:32 happygril3 阅读(159) 评论(0) 推荐(0)

摘要:一 InputFormat主要作用: InputFormat抽象类仅有两个抽象方法:List<InputSplit> getSplits(), 获取由输入文件计算出输入分片(InputSplit),解决数据或文件分割成片问题。RecordReader<K,V> createRecordReader( 阅读全文

posted @ 2020-11-13 18:29 happygril3 阅读(197) 评论(0) 推荐(0)

摘要:按照mapreduce编程规范,分别编写Mapper,Reducer,Driver。 (1)定义一个mapper类 package com.atguigu.wordCount; import org.apache.hadoop.io.IntWritable; import org.apache.ha 阅读全文

posted @ 2020-11-13 18:16 happygril3 阅读(99) 评论(0) 推荐(0)

摘要:统计一堆文件中单词出现的个数(WordCount案例) (1)定义一个mapper类 package com.atguigu.wordCount; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.LongWri 阅读全文

posted @ 2020-11-13 11:47 happygril3 阅读(96) 评论(0) 推荐(0)

摘要:1.NN与2NN的工作机制 第一阶段:Namenode的启动 ●第一次启动NameNode格式化后,创建fsimage和edits文件。如果不是第一次启动,直接加载编辑日志和镜像文件到内存。 ●客户端对元数据进行增删改的请求。 ●NameNode记录操作日志,更新滚动日志。 ●NameNode在内存 阅读全文

posted @ 2020-11-12 13:38 happygril3 阅读(677) 评论(0) 推荐(0)

摘要:一、读写机制 客户端访问NameNode请求上传文件; NameNode检查目标文件和目录是否已经存在; NameNode响应客户端是否可以上传; 客户端请求NameNode文件块Block01上传服务位置; NameNode响应返回3个DataNode节点; 客户端通过输入流建立DataNode0 阅读全文

posted @ 2020-11-11 17:01 happygril3 阅读(126) 评论(0) 推荐(0)

摘要:hadoop:适合一次写入,多次读出,不能修改的操作 (1)优点: (1)高容错数据自动保存多个副本,通过增加副本的形式,提高容错性若一个符本丢失以后,可以自动回复(2)适合处理大数据数据规模:GB,TB甚至PB文件规模:百万(3)可构建在廉价机器上 (2)缺点: (1)不适合低延时的数据访问,如毫 阅读全文

posted @ 2020-11-10 17:34 happygril3 阅读(83) 评论(0) 推荐(0)

摘要:hadoop102设置为中心服务器,Hadoop103和Hadoop104拉取时间 1. 在服务器上检查时间服务是否安装(全部) (1)查询是否安装ntprpm -qa|grep ntp (2)查看ntp服务是否开启service ntpd status 若开启,则stop servicentpd 阅读全文

posted @ 2020-11-10 16:38 happygril3 阅读(157) 评论(0) 推荐(0)

摘要:hadoop102免密登录hadoop103 转自:https://zhuanlan.zhihu.com/p/45025702 1.hadoop102生成一对秘钥ssh-keygen -t rsa ① 输入生成密码的命令,ssh-keygen命令是生成秘钥,-t是加密类型,rsa是一种加密方式 ② 阅读全文

posted @ 2020-11-10 10:44 happygril3 阅读(123) 评论(0) 推荐(0)

摘要:HDFS:NameNode DataNode SecondaryNameNodeYarn:ResourceManegement NodeManagement (1)修改文件 1.core-site.xml <configuration> <!--指定HDFS中NameNode地址--> <prope 阅读全文

posted @ 2020-11-08 17:33 happygril3 阅读(83) 评论(0) 推荐(0)

导航