Hadoop - 随笔分类 - happygril3

mysql

摘要：1.将mysql压缩包拷贝到/usr/local/目录下:cd /usr/localrz mysql-5.7.21-linux-glibc2.12-x86_64.tar.gz 2. 解压,并重命名tar -zxvf mysql-5.7.21-linux-glibc2.12-x86_64.tar.gz 阅读全文

posted @ 2021-01-07 14:13 happygril3 阅读(61) 评论(0) 推荐(0)

运行jar包

摘要：1.本地目录 hadoop jar /home/kg/phone_local.jar corina.wordCount.wordLocal.WordcountDriver /home/kg/hello.txt /home/kg/result package corina.wordCount.word 阅读全文

posted @ 2020-12-15 17:34 happygril3 阅读(195) 评论(0) 推荐(0)

zookeeper_API

摘要：ZooKeeper API的基础知识与ZooKeeper集合进行交互的应用程序称为 ZooKeeper客户端或简称客户端。 Znode是ZooKeeper集合的核心组件，ZooKeeper API提供了一小组方法使用ZooKeeper集合来操纵znode的所有细节。客户端应该遵循以步骤，与Zoo 阅读全文

posted @ 2020-11-30 16:14 happygril3 阅读(145) 评论(0) 推荐(0)

ZAB协议

摘要：Zookeeper使用了Zookeeper Atomic Broadcast（ZAB，Zookeeper原子广播协议）的协议作为其数据一致性的核心算法。 ZAB协议是为Zookeeper专门设计的一种支持崩溃恢复的广播协议。 ZAB一些包括两种基本的模式：崩溃恢复和消息广播。事务Proposal的阅读全文

posted @ 2020-11-30 14:58 happygril3 阅读(160) 评论(0) 推荐(0)

zookeeper常用命令

摘要：1.ZooKeeper服务命令 1. 启动ZK服务: sh bin/zkServer.sh start 2. 查看ZK服务状态: sh bin/zkServer.sh status 3. 停止ZK服务: sh bin/zkServer.sh stop 4. 重启ZK服务: sh bin/zkServ 阅读全文

posted @ 2020-11-25 18:58 happygril3 阅读(224) 评论(0) 推荐(0)

zookeeper

摘要：1.概述 Zookeeper是一个分布式协调服务的开源框架。主要用来解决分布式集群中应用系统的一致性问题。 ZooKeeper本质上是一个分布式的小文件存储系统。提供基于类似于文件系统的目录树方式的数据存储，并且可以对树中的节点进行有效管理。从而用来维护和监控存储的数据的状态变化。通过监控这些数据状阅读全文

posted @ 2020-11-25 16:32 happygril3 阅读(105) 评论(0) 推荐(0)

企业优化

摘要：1. MapReduce 跑的慢的原因（1）计算机性能：CPU,内存，磁盘健康，网络（2）I/O操作数据倾斜 map和reduce设置不合理 map运行时间太长，导致reduce等待过久小文件太多：大量的小文件会产生大量的Map任务，增大Map任务装在次数，而任务的装载比较耗时，导致MP较慢阅读全文

posted @ 2020-11-25 15:28 happygril3 阅读(174) 评论(0) 推荐(0)

yarn

摘要：1.Yarn资源调度器在Yarn中有三种调度器可以选择：FIFO Scheduler ，Capacity Scheduler，FairS cheduler。（1）FIFO Scheduler 把应用按提交的顺序排成一个队列，这是一个先进先出队列，在进行资源分配的时候，先给队列中最头上的应用进行分阅读全文

posted @ 2020-11-25 13:52 happygril3 阅读(118) 评论(0) 推荐(0)

数据压缩和存储

摘要：1.压缩压缩技术能够有效减少底层存储系统（HDFS）读写字节数。压缩提高了网络带宽和磁盘空间的效率。鉴于磁盘I/O和网络带宽是Hadoop的宝贵资源，数据压缩对于节省资源、最小化磁盘I/O和网络传输非常有帮助。压缩Mapreduce的一种优化策略：通过压缩编码对Mapper或者Re 阅读全文

posted @ 2020-11-25 10:03 happygril3 阅读(612) 评论(0) 推荐(0)

Yarn_HA

摘要：1.YARN-HA工作机制 2.YARN-HA配置配置yarn-site.xml <configuration>   <property> <name>y 阅读全文

posted @ 2020-11-23 17:15 happygril3 阅读(92) 评论(0) 推荐(0)

HA配置

摘要：1.复制hadoop文件到目录ha cp -r zookeeper-3.4.10/ ha 2.修改配置文件：core-site.xml <configuration>  <property> <name>fs.defaultFS 阅读全文

posted @ 2020-11-22 19:20 happygril3 阅读(199) 评论(0) 推荐(0)

zookeeper集群部署

摘要：1.下载zookeeper-3.4.10.tar.gz 2.压缩zookeeper-3.4.10.tar.gz 3.删除文件 rm -r data logs 4.创建目录 mkdir zkData /opt/module/zookeeper-3.4.10/zkData 5.修改配置文件 zookee 阅读全文

posted @ 2020-11-22 16:09 happygril3 阅读(78) 评论(0) 推荐(0)

HA工作原理

摘要：1.Hadoop HA简介及工作原理 Hadoop NameNode官方开始支持HA集群默认是从2.0开始，之前的版本均是不支持NameNode HA的高可用的。 1.1 Hadoop HA简介 Hadoop-HA集群运作机制介绍 HA即高可用（7*24小时不中断服务）实现高可用最关键的是消除单点阅读全文

posted @ 2020-11-22 14:36 happygril3 阅读(716) 评论(0) 推荐(0)

mapreduce2

摘要：1.输入数据接口：InputFormat （1）Text:文件按照行划分，key就是这一行在文件中的偏移量，value就是这一行文本（2）FiexedLength：读取输入文件的固定长度的记录，这种文件不该是文本文件，二进制文件比较多（3）KeyValue：文件按照行分割，按分隔符把一行数据切割阅读全文

posted @ 2020-11-22 12:17 happygril3 阅读(80) 评论(0) 推荐(0)

计数器

摘要：package com.atguigu.etl; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.NullWritable; impo 阅读全文

posted @ 2020-11-22 11:33 happygril3 阅读(70) 评论(0) 推荐(0)

MapJoin

摘要：Mapjoin1.适用于一张表十分小（小于15M,HIVE[25M]），一张表很大得场景2.map端完成join，不需要reduce，不需要shuffer（分组全排序），不需要数据倾斜 package com.atguigu.mapJoin; import org.apache.hadoop.con 阅读全文

posted @ 2020-11-22 11:01 happygril3 阅读(258) 评论(0) 推荐(0)

reduce_join

摘要：Mapreduce实例——Reduce端join 原理在Reudce端进行Join连接是MapReduce框架进行表之间Join操作最为常见的模式。 1.Reduce端Join实现原理（1）Map端的主要工作，为来自不同表（文件）的key/value对打标签以区别不同来源的记录。然后用连接字段作阅读全文

posted @ 2020-11-20 18:04 happygril3 阅读(243) 评论(0) 推荐(0)

OutputFormat

摘要：在MapReduce中，OutputFormat描述经reducer处理后输出的数据的格式，将用户提供的key/value键值对写入到特定格式的文件中 TextOutputFormat，输出到纯文本文件，格式为 key + " " + value。 DBOutputFormat，输出到DB Sequ 阅读全文

posted @ 2020-11-20 09:44 happygril3 阅读(141) 评论(0) 推荐(0)

reducer

摘要：package com.atguigu.groupingComparator; import org.apache.hadoop.io.WritableComparable; import java.io.DataInput; import java.io.DataOutput; import ja 阅读全文

posted @ 2020-11-20 09:40 happygril3 阅读(230) 评论(0) 推荐(0)

序列化

摘要：Hadoop的key和value的传递序列化需要涉及两个重要的接口Writable和WritableComparable： WritableComparable比Writable多了一个compareTo方法，用来判断key是否唯一或者说是不是相同。 Hadoop为Key的数据类型必须实现Writa 阅读全文

posted @ 2020-11-17 16:56 happygril3 阅读(73) 评论(0) 推荐(0)

happygril3

随笔分类 - Hadoop