随笔分类 -  Hadoop

1 2 下一页

mysql
摘要:1.将mysql压缩包拷贝到/usr/local/目录下:cd /usr/localrz mysql-5.7.21-linux-glibc2.12-x86_64.tar.gz 2. 解压,并重命名tar -zxvf mysql-5.7.21-linux-glibc2.12-x86_64.tar.gz 阅读全文

posted @ 2021-01-07 14:13 happygril3 阅读(61) 评论(0) 推荐(0)

运行jar包
摘要:1.本地目录 hadoop jar /home/kg/phone_local.jar corina.wordCount.wordLocal.WordcountDriver /home/kg/hello.txt /home/kg/result package corina.wordCount.word 阅读全文

posted @ 2020-12-15 17:34 happygril3 阅读(195) 评论(0) 推荐(0)

zookeeper_API
摘要:ZooKeeper API的基础知识 与ZooKeeper集合进行交互的应用程序称为 ZooKeeper客户端或简称客户端。 Znode是ZooKeeper集合的核心组件,ZooKeeper API提供了一小组方法使用ZooKeeper集合来操纵znode的所有细节。 客户端应该遵循以步骤,与Zoo 阅读全文

posted @ 2020-11-30 16:14 happygril3 阅读(144) 评论(0) 推荐(0)

ZAB协议
摘要:Zookeeper使用了Zookeeper Atomic Broadcast(ZAB,Zookeeper原子广播协议)的协议作为其数据一致性的核心算法。 ZAB协议是为Zookeeper专门设计的一种支持崩溃恢复的广播协议。 ZAB一些包括两种基本的模式:崩溃恢复和消息广播。 事务Proposal的 阅读全文

posted @ 2020-11-30 14:58 happygril3 阅读(160) 评论(0) 推荐(0)

zookeeper常用命令
摘要:1.ZooKeeper服务命令 1. 启动ZK服务: sh bin/zkServer.sh start 2. 查看ZK服务状态: sh bin/zkServer.sh status 3. 停止ZK服务: sh bin/zkServer.sh stop 4. 重启ZK服务: sh bin/zkServ 阅读全文

posted @ 2020-11-25 18:58 happygril3 阅读(224) 评论(0) 推荐(0)

zookeeper
摘要:1.概述 Zookeeper是一个分布式协调服务的开源框架。主要用来解决分布式集群中应用系统的一致性问题。 ZooKeeper本质上是一个分布式的小文件存储系统。提供基于类似于文件系统的目录树方式的数据存储,并且可以对树中的节点进行有效管理。从而用来维护和监控存储的数据的状态变化。通过监控这些数据状 阅读全文

posted @ 2020-11-25 16:32 happygril3 阅读(105) 评论(0) 推荐(0)

企业优化
摘要:1. MapReduce 跑的慢的原因 (1)计算机性能:CPU,内存,磁盘健康,网络 (2)I/O操作 数据倾斜 map和reduce设置不合理 map运行时间太长,导致reduce等待过久 小文件太多:大量的小文件会产生大量的Map任务,增大Map任务装在次数,而任务的装载比较耗时,导致MP较慢 阅读全文

posted @ 2020-11-25 15:28 happygril3 阅读(173) 评论(0) 推荐(0)

yarn
摘要:1.Yarn资源调度器 在Yarn中有三种调度器可以选择:FIFO Scheduler ,Capacity Scheduler,FairS cheduler。 (1)FIFO Scheduler 把应用按提交的顺序排成一个队列,这是一个先进先出队列,在进行资源分配的时候,先给队列中最头上的应用进行分 阅读全文

posted @ 2020-11-25 13:52 happygril3 阅读(118) 评论(0) 推荐(0)

数据压缩和存储
摘要:1.压缩 ​ 压缩技术能够有效减少底层存储系统(HDFS)读写字节数。压缩提高了网络带宽和磁盘空间的效率。 ​ 鉴于磁盘I/O和网络带宽是Hadoop的宝贵资源,数据压缩对于节省资源、最小化磁盘I/O和网络传输非常有帮助。 ​ 压缩Mapreduce的一种优化策略:通过压缩编码对Mapper或者Re 阅读全文

posted @ 2020-11-25 10:03 happygril3 阅读(612) 评论(0) 推荐(0)

Yarn_HA
摘要:1.YARN-HA工作机制 2.YARN-HA配置 配置yarn-site.xml <configuration> <!-- Site specific YARN configuration properties --> <!--reduce数据的获取方式--> <property> <name>y 阅读全文

posted @ 2020-11-23 17:15 happygril3 阅读(91) 评论(0) 推荐(0)

HA配置
摘要:1.复制hadoop文件到目录ha cp -r zookeeper-3.4.10/ ha 2.修改配置文件:core-site.xml <configuration> <!--把两个Namenode地址组装成一个集群mycluster--> <property> <name>fs.defaultFS 阅读全文

posted @ 2020-11-22 19:20 happygril3 阅读(199) 评论(0) 推荐(0)

zookeeper集群部署
摘要:1.下载zookeeper-3.4.10.tar.gz 2.压缩zookeeper-3.4.10.tar.gz 3.删除文件 rm -r data logs 4.创建目录 mkdir zkData /opt/module/zookeeper-3.4.10/zkData 5.修改配置文件 zookee 阅读全文

posted @ 2020-11-22 16:09 happygril3 阅读(78) 评论(0) 推荐(0)

HA工作原理
摘要:1.Hadoop HA简介及工作原理 Hadoop NameNode官方开始支持HA集群默认是从2.0开始,之前的版本均是不支持NameNode HA的高可用的。 1.1 Hadoop HA简介 Hadoop-HA集群运作机制介绍 HA即高可用(7*24小时不中断服务) 实现高可用最关键的是消除单点 阅读全文

posted @ 2020-11-22 14:36 happygril3 阅读(716) 评论(0) 推荐(0)

mapreduce2
摘要:1.输入数据接口:InputFormat (1)Text:文件按照行划分,key就是这一行在文件中的偏移量,value就是这一行文本 (2)FiexedLength:读取输入文件的固定长度的记录,这种文件不该是文本文件,二进制文件比较多 (3)KeyValue:文件按照行分割,按分隔符把一行数据切割 阅读全文

posted @ 2020-11-22 12:17 happygril3 阅读(80) 评论(0) 推荐(0)

计数器
摘要:package com.atguigu.etl; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.NullWritable; impo 阅读全文

posted @ 2020-11-22 11:33 happygril3 阅读(70) 评论(0) 推荐(0)

MapJoin
摘要:Mapjoin1.适用于一张表十分小(小于15M,HIVE[25M]),一张表很大得场景2.map端完成join,不需要reduce,不需要shuffer(分组全排序),不需要数据倾斜 package com.atguigu.mapJoin; import org.apache.hadoop.con 阅读全文

posted @ 2020-11-22 11:01 happygril3 阅读(258) 评论(0) 推荐(0)

reduce_join
摘要:Mapreduce实例——Reduce端join 原理 在Reudce端进行Join连接是MapReduce框架进行表之间Join操作最为常见的模式。 1.Reduce端Join实现原理 (1)Map端的主要工作,为来自不同表(文件)的key/value对打标签以区别不同来源的记录。然后用连接字段作 阅读全文

posted @ 2020-11-20 18:04 happygril3 阅读(243) 评论(0) 推荐(0)

OutputFormat
摘要:在MapReduce中,OutputFormat描述经reducer处理后输出的数据的格式,将用户提供的key/value键值对写入到特定格式的文件中 TextOutputFormat,输出到纯文本文件,格式为 key + " " + value。 DBOutputFormat,输出到DB Sequ 阅读全文

posted @ 2020-11-20 09:44 happygril3 阅读(141) 评论(0) 推荐(0)

reducer
摘要:package com.atguigu.groupingComparator; import org.apache.hadoop.io.WritableComparable; import java.io.DataInput; import java.io.DataOutput; import ja 阅读全文

posted @ 2020-11-20 09:40 happygril3 阅读(230) 评论(0) 推荐(0)

序列化
摘要:Hadoop的key和value的传递序列化需要涉及两个重要的接口Writable和WritableComparable: WritableComparable比Writable多了一个compareTo方法,用来判断key是否唯一或者说是不是相同。 Hadoop为Key的数据类型必须实现Writa 阅读全文

posted @ 2020-11-17 16:56 happygril3 阅读(73) 评论(0) 推荐(0)

1 2 下一页

导航