Kafka简介及使用
摘要:一、Kafka概述 二、kafka是什么? 三、为什么要用消息队列 四、kafka架构设计 Kafka介绍 Kafka架构 五、kafka集群安装部署 六、Kafka命令行操作 七、Kafka简单API 1、Producer1类 kafka生产者API 接口回调 2、Producer2类 kafka
阅读全文
posted @
2018-12-15 23:52
末
阅读(1302)
推荐(0)
Hbase优化方案
摘要:1、预分区设计 附:splits.txt 2、rowkey设计 3、HBase优化
阅读全文
posted @
2018-12-15 23:27
末
阅读(230)
推荐(0)
HBase-MR
摘要:一、需求1:对一张表的rowkey进行计数 二、需求2:本地数据导入到HBase中 附:love.tsv 三、需求3:将HBase中love表进行指定列的筛选然后倒入到lovemr表 1、ReadLoveMapper类 2、WriteLoveReducer类 3、LoveDriver类 四、需求4:
阅读全文
posted @
2018-12-09 20:49
末
阅读(380)
推荐(0)
HBase简单API
摘要:一、使用IDEA的maven工程,工程结构如下: 二、maven的依赖pom.xml文件 三、hbase-site.xml,在HBase集群的{HBASE_HOME}/conf目录下下载到本地,放到resources资源目录下 四、core-site.xml,在Hadoop集群的{HADOOP_HO
阅读全文
posted @
2018-12-09 16:02
末
阅读(1301)
推荐(0)
HBase读写流程
摘要:一、HBase读取数据流程 二、HBase读取数据详细流程 三、HBase写数据流程
阅读全文
posted @
2018-12-09 15:43
末
阅读(213)
推荐(0)
HBase简介及集群安装
摘要:HBase架构 Hadoop和ZooKeeper依赖
阅读全文
posted @
2018-12-09 14:19
末
阅读(351)
推荐(0)
Azkaban简介及使用
摘要:一、Azkaban概述 Azkaban是一个分布式工作流管理器,在LinkedIn上实现,以解决Hadoop作业依赖性问题。 我们有需要按顺序运行的工作,从ETL工作到数据分析产品。 特点: 1)给用户提供了一个非常友好的可视化界面->web界面 2)非常方便的上传工作流-》打成压缩包 3)设置任务间的关系 4)权限设置-》删库到跑路 ...
阅读全文
posted @
2018-12-01 19:28
末
阅读(2981)
推荐(0)
Sqoop简介及使用
摘要:一、Sqoop概述 1)官网 http://sqoop.apache.org/ 2)场景 传统型缺点,分布式存储。把传统型数据库数据迁移。 Apache Sqoop(TM)是一种用于在Apache Hadoop和结构化数据存储(如关系数据库)之间高效传输批量数据的工具。 二、Sqoop安装部署 1)下载安装包 2)解压 tar -...
阅读全文
posted @
2018-12-01 14:59
末
阅读(1078)
推荐(0)
Flume简介及使用
摘要:一、Flume概述 二、Flume安装部署 三、Flume监听端口 1、安装telnet 2、写配置文件 flumejob_telnet.conf 放置在flume/conf/下 3、启动 4、发送数据 5、查看 四、实时的采集文件到HDFS 1、写配置文件 flumejob_hdfs.conf 2
阅读全文
posted @
2018-11-25 20:53
末
阅读(1616)
推荐(0)
Hive简介及使用
摘要:一、Hive简介 Hive架构 二、Hive安装 三、Hive数据类型 附件1:数据员工表 emp.txt 四、DML数据操作 附件2:数据部门表 dept.txt 五、查询与函数 六、join和分桶 附件3:数据地址表 location.txt 附件4:数据分桶数据表 emp_b.txt 七、Hi
阅读全文
posted @
2018-11-25 18:01
末
阅读(1111)
推荐(0)
CentOS7 安装 MySQL
摘要:1、首先检查 MySQL 是否已安装 2、MySQL 依赖 libaio,所以先要安装 libaio 3、下载 MySQL Yum Repository 注意:如果提示-bash: wget: 未找到命令,请先执行 yum install wget 安装 wget 4、添加 MySQL Yum Re
阅读全文
posted @
2018-11-25 16:29
末
阅读(3703)
推荐(0)
Zookeeper简介及使用
摘要:一、Zookeeper简介 二、Zookeeper工作机制 1、Zookeeper工作机制 2、Zookeeper目录结构 3、Zookeeper选举机制 三、Zookeeper简单客户端API 四、Zoopeeper监听API 1、监听单节点内容 2、监听目录 五、Zookeeper动态上下线感知
阅读全文
posted @
2018-11-25 11:30
末
阅读(26273)
推荐(5)
Hadoop总结
摘要:一、linux简介 01.Linux简介 linux是一种自由和开放源代码的类UNIX操作系统。该操作系统的内核由林纳斯·托瓦兹 在1991年10月5日首次发布。,在加上用户空间的应用程序之后,成为Linux操作系统。 应用:长时间的运行编写的程序代码,可以安装在各种计算机硬件设备中,如: 手机、平板电脑、路由器等 安卓最底层运行在linu...
阅读全文
posted @
2018-11-04 23:01
末
阅读(662)
推荐(0)
Hadoop优化
摘要:1、mr程序的效率瓶颈 功能:分布式离线计算 计算机性能:CPU、内存、磁盘、网络 I/O操作优化 (1)数据倾斜(代码优化) (2)map和reduce数设置不合理 (3)map运行时间太长,导致reduce等待过久 (4)小文件过多(combineTextInputFomrat小文件合并) (5)不可分块的超大文件(不断的溢写)...
阅读全文
posted @
2018-11-04 22:59
末
阅读(310)
推荐(0)
Hadoop压缩
摘要:一、Hadoop压缩简介 二、Hadoop压缩使用方式 1.Mapper类 2.Reducer类 3.Driver类 4.输入文件words.txt 5.输出文件的名字分别如下 三、自定义压缩工具 1.自定义压缩工具类 2.输入文件名 3.输出文件名
阅读全文
posted @
2018-11-04 18:21
末
阅读(457)
推荐(0)
mapjoin与reducejoin
摘要:一、mapjoin 1.Mapper类 2.Driver类 3.输入文件 4.输出文件part-m-00000 二、reducejoin 1.Mapper类 2.Reducer类 3.封装类 4.Driver类 5.输入文件 6.输出文件part-r-00000
阅读全文
posted @
2018-11-04 17:59
末
阅读(263)
推荐(0)
MapReduce自定义InputFormat和OutputFormat
摘要:一、自定义InputFormat 1.Mapper类 2.Reducer类 3.自定义InputFormat类 4.自定义RecordReader类 5.Driver类 6.输入小文件 7.输出文件part-r-00000 二、自定义OutputFormat 需求:过滤日志文件 把包含main的放在
阅读全文
posted @
2018-11-04 15:57
末
阅读(1029)
推荐(0)
MapReduce辅助排序
摘要:1.Mapper类 2.Reducer类 3.封装类 4.自定义分区类 5.自定义排序分组类 6.Driver类 7.mr输入文件order.java 8.输出文件
阅读全文
posted @
2018-11-04 15:13
末
阅读(269)
推荐(0)
MapReduce分区和排序
摘要:一、排序 二、分区和排序实例 1.Mapper类 2.Reducer类 3.封装类 4.自定义分区类 5.Driver类 6.输入的文件part-r-00000 7.如果第5步Driver类中的红色部分去掉,则输出全局排序后的文件part-r-00000 8.如果第5步Driver类中的红色部分不去
阅读全文
posted @
2018-10-26 00:15
末
阅读(1563)
推荐(0)