随笔分类 -  大数据

上一页 1 2 3 下一页
kafka-stream数据清洗
摘要:1、数据清洗业务类LogProcessor 2、Application类 3、运行Application类的main方法 4、在hd09-1机器上创建主题t1 5、在hd09-2机器上启动消费者 6、在hd09-1机器上启动生产者 7、此时在hd09-1机器kafka生产者上输入 wo-henshu 阅读全文
posted @ 2018-12-18 20:29 阅读(2059) 评论(0) 推荐(0)
Kafka简介及使用
摘要:一、Kafka概述 二、kafka是什么? 三、为什么要用消息队列 四、kafka架构设计 Kafka介绍 Kafka架构 五、kafka集群安装部署 六、Kafka命令行操作 七、Kafka简单API 1、Producer1类 kafka生产者API 接口回调 2、Producer2类 kafka 阅读全文
posted @ 2018-12-15 23:52 阅读(1302) 评论(0) 推荐(0)
Hbase­优化方案
摘要:1、预分区设计 附:splits.txt 2、rowkey设计 3、HBase优化 阅读全文
posted @ 2018-12-15 23:27 阅读(230) 评论(0) 推荐(0)
HBase-MR
摘要:一、需求1:对一张表的rowkey进行计数 二、需求2:本地数据导入到HBase中 附:love.tsv 三、需求3:将HBase中love表进行指定列的筛选然后倒入到lovemr表 1、ReadLoveMapper类 2、WriteLoveReducer类 3、LoveDriver类 四、需求4: 阅读全文
posted @ 2018-12-09 20:49 阅读(380) 评论(0) 推荐(0)
HBase简单API
摘要:一、使用IDEA的maven工程,工程结构如下: 二、maven的依赖pom.xml文件 三、hbase-site.xml,在HBase集群的{HBASE_HOME}/conf目录下下载到本地,放到resources资源目录下 四、core-site.xml,在Hadoop集群的{HADOOP_HO 阅读全文
posted @ 2018-12-09 16:02 阅读(1301) 评论(2) 推荐(0)
HBase读写流程
摘要:一、HBase读取数据流程 二、HBase读取数据详细流程 三、HBase写数据流程 阅读全文
posted @ 2018-12-09 15:43 阅读(213) 评论(0) 推荐(0)
HBase-shell操作
摘要:HBase结构 阅读全文
posted @ 2018-12-09 14:51 阅读(209) 评论(0) 推荐(0)
HBase简介及集群安装
摘要:HBase架构 Hadoop和ZooKeeper依赖 阅读全文
posted @ 2018-12-09 14:19 阅读(351) 评论(0) 推荐(0)
Azkaban简介及使用
摘要:一、Azkaban概述 Azkaban是一个分布式工作流管理器,在LinkedIn上实现,以解决Hadoop作业依赖性问题。 我们有需要按顺序运行的工作,从ETL工作到数据分析产品。 特点: 1)给用户提供了一个非常友好的可视化界面->web界面 2)非常方便的上传工作流-》打成压缩包 3)设置任务间的关系 4)权限设置-》删库到跑路 ... 阅读全文
posted @ 2018-12-01 19:28 阅读(2981) 评论(0) 推荐(0)
Sqoop简介及使用
摘要:一、Sqoop概述 1)官网 http://sqoop.apache.org/ 2)场景 传统型缺点,分布式存储。把传统型数据库数据迁移。 Apache Sqoop(TM)是一种用于在Apache Hadoop和结构化数据存储(如关系数据库)之间高效传输批量数据的工具。 二、Sqoop安装部署 1)下载安装包 2)解压 tar -... 阅读全文
posted @ 2018-12-01 14:59 阅读(1078) 评论(0) 推荐(0)
Hadoop总结
摘要:一、linux简介 01.Linux简介 linux是一种自由和开放源代码的类UNIX操作系统。该操作系统的内核由林纳斯·托瓦兹 在1991年10月5日首次发布。,在加上用户空间的应用程序之后,成为Linux操作系统。 应用:长时间的运行编写的程序代码,可以安装在各种计算机硬件设备中,如: 手机、平板电脑、路由器等 安卓最底层运行在linu... 阅读全文
posted @ 2018-11-04 23:01 阅读(662) 评论(0) 推荐(0)
Hadoop优化
摘要:1、mr程序的效率瓶颈 功能:分布式离线计算 计算机性能:CPU、内存、磁盘、网络 I/O操作优化 (1)数据倾斜(代码优化) (2)map和reduce数设置不合理 (3)map运行时间太长,导致reduce等待过久 (4)小文件过多(combineTextInputFomrat小文件合并) (5)不可分块的超大文件(不断的溢写)... 阅读全文
posted @ 2018-11-04 22:59 阅读(310) 评论(0) 推荐(0)
Hadoop压缩
摘要:一、Hadoop压缩简介 二、Hadoop压缩使用方式 1.Mapper类 2.Reducer类 3.Driver类 4.输入文件words.txt 5.输出文件的名字分别如下 三、自定义压缩工具 1.自定义压缩工具类 2.输入文件名 3.输出文件名 阅读全文
posted @ 2018-11-04 18:21 阅读(457) 评论(0) 推荐(0)
mapjoin与reducejoin
摘要:一、mapjoin 1.Mapper类 2.Driver类 3.输入文件 4.输出文件part-m-00000 二、reducejoin 1.Mapper类 2.Reducer类 3.封装类 4.Driver类 5.输入文件 6.输出文件part-r-00000 阅读全文
posted @ 2018-11-04 17:59 阅读(263) 评论(0) 推荐(0)
MapReduce自定义InputFormat和OutputFormat
摘要:一、自定义InputFormat 1.Mapper类 2.Reducer类 3.自定义InputFormat类 4.自定义RecordReader类 5.Driver类 6.输入小文件 7.输出文件part-r-00000 二、自定义OutputFormat 需求:过滤日志文件 把包含main的放在 阅读全文
posted @ 2018-11-04 15:57 阅读(1029) 评论(0) 推荐(0)
MapReduce辅助排序
摘要:1.Mapper类 2.Reducer类 3.封装类 4.自定义分区类 5.自定义排序分组类 6.Driver类 7.mr输入文件order.java 8.输出文件 阅读全文
posted @ 2018-11-04 15:13 阅读(269) 评论(0) 推荐(0)
MapReduce分区和排序
摘要:一、排序 二、分区和排序实例 1.Mapper类 2.Reducer类 3.封装类 4.自定义分区类 5.Driver类 6.输入的文件part-r-00000 7.如果第5步Driver类中的红色部分去掉,则输出全局排序后的文件part-r-00000 8.如果第5步Driver类中的红色部分不去 阅读全文
posted @ 2018-10-26 00:15 阅读(1563) 评论(0) 推荐(0)
MapReduce小文件优化与分区
摘要:一、小文件优化 1.Mapper类 2.Reducer类 3.Driver类 二、分区 1.Mapper类 2.Reducer类 3.封装类 4.分区类 5.Driver类 6.输入的文件HTTP_20180313143750.dat 7.输出的文件 阅读全文
posted @ 2018-10-25 23:38 阅读(629) 评论(0) 推荐(0)
MapReduce分析流量汇总
摘要:一、MapReduce编程规范 二、MapReduce分析流量汇总 1.Mapper类 2.Reducer类 3.Driver类 4.封装类,数据的传输 5.输入的文件HTTP_20180313143750.dat 6.输出的文件part-r-00000 阅读全文
posted @ 2018-10-25 23:13 阅读(281) 评论(0) 推荐(0)
MapReduce的核心编程思想
摘要:1.MapReduce的核心编程思想 2.yarn集群工作机制 3.maptask并行度与决定机制 4.maptask工作机制 5.MapReduce整体流程 6.shuffle机制 7.yarn架构 阅读全文
posted @ 2018-10-25 22:44 阅读(1542) 评论(0) 推荐(0)

上一页 1 2 3 下一页