随笔档案「2020年11月」 - happygril3

zookeeper_API

摘要：ZooKeeper API的基础知识与ZooKeeper集合进行交互的应用程序称为 ZooKeeper客户端或简称客户端。 Znode是ZooKeeper集合的核心组件，ZooKeeper API提供了一小组方法使用ZooKeeper集合来操纵znode的所有细节。客户端应该遵循以步骤，与Zoo 阅读全文

posted @ 2020-11-30 16:14 happygril3 阅读(158) 评论(0) 推荐(0)

ZAB协议

摘要：Zookeeper使用了Zookeeper Atomic Broadcast（ZAB，Zookeeper原子广播协议）的协议作为其数据一致性的核心算法。 ZAB协议是为Zookeeper专门设计的一种支持崩溃恢复的广播协议。 ZAB一些包括两种基本的模式：崩溃恢复和消息广播。事务Proposal的阅读全文

posted @ 2020-11-30 14:58 happygril3 阅读(169) 评论(0) 推荐(0)

zookeeper常用命令

摘要：1.ZooKeeper服务命令 1. 启动ZK服务: sh bin/zkServer.sh start 2. 查看ZK服务状态: sh bin/zkServer.sh status 3. 停止ZK服务: sh bin/zkServer.sh stop 4. 重启ZK服务: sh bin/zkServ 阅读全文

posted @ 2020-11-25 18:58 happygril3 阅读(241) 评论(0) 推荐(0)

zookeeper

摘要：1.概述 Zookeeper是一个分布式协调服务的开源框架。主要用来解决分布式集群中应用系统的一致性问题。 ZooKeeper本质上是一个分布式的小文件存储系统。提供基于类似于文件系统的目录树方式的数据存储，并且可以对树中的节点进行有效管理。从而用来维护和监控存储的数据的状态变化。通过监控这些数据状阅读全文

posted @ 2020-11-25 16:32 happygril3 阅读(123) 评论(0) 推荐(0)

企业优化

摘要：1. MapReduce 跑的慢的原因（1）计算机性能：CPU,内存，磁盘健康，网络（2）I/O操作数据倾斜 map和reduce设置不合理 map运行时间太长，导致reduce等待过久小文件太多：大量的小文件会产生大量的Map任务，增大Map任务装在次数，而任务的装载比较耗时，导致MP较慢阅读全文

posted @ 2020-11-25 15:28 happygril3 阅读(202) 评论(0) 推荐(0)

yarn

摘要：1.Yarn资源调度器在Yarn中有三种调度器可以选择：FIFO Scheduler ，Capacity Scheduler，FairS cheduler。（1）FIFO Scheduler 把应用按提交的顺序排成一个队列，这是一个先进先出队列，在进行资源分配的时候，先给队列中最头上的应用进行分阅读全文

posted @ 2020-11-25 13:52 happygril3 阅读(123) 评论(0) 推荐(0)

数据压缩和存储

摘要：1.压缩压缩技术能够有效减少底层存储系统（HDFS）读写字节数。压缩提高了网络带宽和磁盘空间的效率。鉴于磁盘I/O和网络带宽是Hadoop的宝贵资源，数据压缩对于节省资源、最小化磁盘I/O和网络传输非常有帮助。压缩Mapreduce的一种优化策略：通过压缩编码对Mapper或者Re 阅读全文

posted @ 2020-11-25 10:03 happygril3 阅读(651) 评论(0) 推荐(0)

Yarn_HA

摘要：1.YARN-HA工作机制 2.YARN-HA配置配置yarn-site.xml <configuration>   <property> <name>y 阅读全文

posted @ 2020-11-23 17:15 happygril3 阅读(108) 评论(0) 推荐(0)

HA配置

摘要：1.复制hadoop文件到目录ha cp -r zookeeper-3.4.10/ ha 2.修改配置文件：core-site.xml <configuration>  <property> <name>fs.defaultFS 阅读全文

posted @ 2020-11-22 19:20 happygril3 阅读(223) 评论(0) 推荐(0)

zookeeper集群部署

摘要：1.下载zookeeper-3.4.10.tar.gz 2.压缩zookeeper-3.4.10.tar.gz 3.删除文件 rm -r data logs 4.创建目录 mkdir zkData /opt/module/zookeeper-3.4.10/zkData 5.修改配置文件 zookee 阅读全文

posted @ 2020-11-22 16:09 happygril3 阅读(87) 评论(0) 推荐(0)

HA工作原理

摘要：1.Hadoop HA简介及工作原理 Hadoop NameNode官方开始支持HA集群默认是从2.0开始，之前的版本均是不支持NameNode HA的高可用的。 1.1 Hadoop HA简介 Hadoop-HA集群运作机制介绍 HA即高可用（7*24小时不中断服务）实现高可用最关键的是消除单点阅读全文

posted @ 2020-11-22 14:36 happygril3 阅读(728) 评论(0) 推荐(0)

mapreduce2

摘要：1.输入数据接口：InputFormat （1）Text:文件按照行划分，key就是这一行在文件中的偏移量，value就是这一行文本（2）FiexedLength：读取输入文件的固定长度的记录，这种文件不该是文本文件，二进制文件比较多（3）KeyValue：文件按照行分割，按分隔符把一行数据切割阅读全文

posted @ 2020-11-22 12:17 happygril3 阅读(82) 评论(0) 推荐(0)

计数器

摘要：package com.atguigu.etl; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.NullWritable; impo 阅读全文

posted @ 2020-11-22 11:33 happygril3 阅读(83) 评论(0) 推荐(0)

MapJoin

摘要：Mapjoin1.适用于一张表十分小（小于15M,HIVE[25M]），一张表很大得场景2.map端完成join，不需要reduce，不需要shuffer（分组全排序），不需要数据倾斜 package com.atguigu.mapJoin; import org.apache.hadoop.con 阅读全文

posted @ 2020-11-22 11:01 happygril3 阅读(261) 评论(0) 推荐(0)

reduce_join

摘要：Mapreduce实例——Reduce端join 原理在Reudce端进行Join连接是MapReduce框架进行表之间Join操作最为常见的模式。 1.Reduce端Join实现原理（1）Map端的主要工作，为来自不同表（文件）的key/value对打标签以区别不同来源的记录。然后用连接字段作阅读全文

posted @ 2020-11-20 18:04 happygril3 阅读(259) 评论(0) 推荐(0)

OutputFormat

摘要：在MapReduce中，OutputFormat描述经reducer处理后输出的数据的格式，将用户提供的key/value键值对写入到特定格式的文件中 TextOutputFormat，输出到纯文本文件，格式为 key + " " + value。 DBOutputFormat，输出到DB Sequ 阅读全文

posted @ 2020-11-20 09:44 happygril3 阅读(157) 评论(0) 推荐(0)

reducer

摘要：package com.atguigu.groupingComparator; import org.apache.hadoop.io.WritableComparable; import java.io.DataInput; import java.io.DataOutput; import ja 阅读全文

posted @ 2020-11-20 09:40 happygril3 阅读(242) 评论(0) 推荐(0)

运行效率

摘要：（1）针对循环的优化每次你调用str.upper, Python都会计算这个式子的值。然而，如果你把这个求值赋值给一个变量，那么求值的结果就能提前知道，Python程序就能运行得更快。因此，关键就是尽可能减小Python在循环中的工作量。因为Python解释执行的特性，在上面的例子中会大大减慢它阅读全文

posted @ 2020-11-18 15:34 happygril3 阅读(375) 评论(0) 推荐(0)

__new__和__init__

摘要：__new__是用来创造一个类的实例的（constructor） __init__是用来初始化一个实例的（initializer）。 class newStyleClass(object): def __new__(cls): print("__new__ is called") return su 阅读全文

posted @ 2020-11-18 14:59 happygril3 阅读(90) 评论(0) 推荐(0)

字典底层实现原理

摘要：字典是通过哈希表实现的。字典也被称为哈希数组等。字典哈希数组键（哈希函数）--数组索引值数组值哈希函数的目的是使键均匀地分布在数组中，并且可以在内存中以O(1)的时间复杂度进行寻址，从而实现快速查找和修改。哈希表中哈希函数的设计困难在于将数据均匀分布在哈希表中，从而尽量减少哈希碰撞和阅读全文

posted @ 2020-11-18 14:08 happygril3 阅读(1228) 评论(0) 推荐(0)

垃圾回收机制

摘要：Python的GC模块主要运用了“引用计数”（reference counting）来跟踪和回收垃圾。在引用计数的基础上，还可以通过“标记-清除”（mark and sweep）解决容器对象可能产生的循环引用的问题。通过“分代回收”（generation collection）以空间换取时间来阅读全文

posted @ 2020-11-18 13:41 happygril3 阅读(126) 评论(0) 推荐(0)

序列化

摘要：Hadoop的key和value的传递序列化需要涉及两个重要的接口Writable和WritableComparable： WritableComparable比Writable多了一个compareTo方法，用来判断key是否唯一或者说是不是相同。 Hadoop为Key的数据类型必须实现Writa 阅读全文

posted @ 2020-11-17 16:56 happygril3 阅读(89) 评论(0) 推荐(0)

partition

摘要：spill溢出前需要对数据进行分区和排序，即会对环形缓冲区里面的每个(k,v)键值对hash一个partition值，相同partition值为同一分区，然会把环形缓冲区中的数据根据partition值和key值两个关键字升序排序；同一partition内的按照key排序； package com. 阅读全文

posted @ 2020-11-17 16:49 happygril3 阅读(483) 评论(0) 推荐(0)

WritableComparable

摘要：WritableComparable继承自Writable和java.lang.Comparable接口，是一个Writable也是一个Comparable，也就是说，既可以序列化，也可以比较！ WritableComparable的实现类之间相互来比较，在Map/Reduce中，任何用作键来使用的阅读全文

posted @ 2020-11-17 16:44 happygril3 阅读(228) 评论(0) 推荐(0)

MapReduce

摘要：2. MAPREDUCE框架结构及核心运行机制 2.1 框架架构一个完整的mapreduce程序在分布式运行时有三类实例进程：1、MRAppMaster(Mapreduce application master)：负责整个程序的过程调度及状态协调2、MapTask：负责map阶段的整个数据处理流程阅读全文

posted @ 2020-11-17 16:32 happygril3 阅读(159) 评论(0) 推荐(0)

InputFormat

摘要：一 InputFormat主要作用： InputFormat抽象类仅有两个抽象方法：List<InputSplit> getSplits()，获取由输入文件计算出输入分片(InputSplit)，解决数据或文件分割成片问题。RecordReader<K,V> createRecordReader( 阅读全文

posted @ 2020-11-13 18:29 happygril3 阅读(197) 评论(0) 推荐(0)

WordCount

摘要：按照mapreduce编程规范，分别编写Mapper，Reducer，Driver。 (1)定义一个mapper类 package com.atguigu.wordCount; import org.apache.hadoop.io.IntWritable; import org.apache.ha 阅读全文

posted @ 2020-11-13 18:16 happygril3 阅读(99) 评论(0) 推荐(0)

WordCount

摘要：统计一堆文件中单词出现的个数（WordCount案例）（1）定义一个mapper类 package com.atguigu.wordCount; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.LongWri 阅读全文

posted @ 2020-11-13 11:47 happygril3 阅读(96) 评论(0) 推荐(0)

NN与2NN的关系解析

摘要：1.NN与2NN的工作机制第一阶段：Namenode的启动 ●第一次启动NameNode格式化后，创建fsimage和edits文件。如果不是第一次启动，直接加载编辑日志和镜像文件到内存。 ●客户端对元数据进行增删改的请求。 ●NameNode记录操作日志，更新滚动日志。 ●NameNode在内存阅读全文

posted @ 2020-11-12 13:38 happygril3 阅读(677) 评论(0) 推荐(0)

HDFS读写流程与API

摘要：一、读写机制客户端访问NameNode请求上传文件； NameNode检查目标文件和目录是否已经存在； NameNode响应客户端是否可以上传；客户端请求NameNode文件块Block01上传服务位置； NameNode响应返回3个DataNode节点；客户端通过输入流建立DataNode0 阅读全文

posted @ 2020-11-11 17:01 happygril3 阅读(126) 评论(0) 推荐(0)

HDFS

摘要：hadoop：适合一次写入，多次读出，不能修改的操作（1）优点：（1）高容错数据自动保存多个副本，通过增加副本的形式，提高容错性若一个符本丢失以后，可以自动回复（2）适合处理大数据数据规模：GB,TB甚至PB文件规模：百万（3）可构建在廉价机器上（2）缺点：（1）不适合低延时的数据访问，如毫阅读全文

posted @ 2020-11-10 17:34 happygril3 阅读(83) 评论(0) 推荐(0)

hadoop集群时间同步

摘要：hadoop102设置为中心服务器，Hadoop103和Hadoop104拉取时间 1. 在服务器上检查时间服务是否安装（全部）（1）查询是否安装ntprpm -qa|grep ntp （2）查看ntp服务是否开启service ntpd status 若开启，则stop servicentpd 阅读全文

posted @ 2020-11-10 16:38 happygril3 阅读(157) 评论(0) 推荐(0)

SSH免密登录配置

摘要：hadoop102免密登录hadoop103 转自:https://zhuanlan.zhihu.com/p/45025702 1.hadoop102生成一对秘钥ssh-keygen -t rsa ① 输入生成密码的命令，ssh-keygen命令是生成秘钥，-t是加密类型，rsa是一种加密方式 ② 阅读全文

posted @ 2020-11-10 10:44 happygril3 阅读(123) 评论(0) 推荐(0)

hadoop集群搭建

摘要：HDFS:NameNode DataNode SecondaryNameNodeYarn:ResourceManegement NodeManagement (1)修改文件 1.core-site.xml <configuration>  <prope 阅读全文

posted @ 2020-11-08 17:33 happygril3 阅读(83) 评论(0) 推荐(0)

happygril3

11 2020 档案

导航

公告