大数据 - 随笔分类(第2页) - 末

kafka-stream数据清洗

摘要：1、数据清洗业务类LogProcessor 2、Application类 3、运行Application类的main方法 4、在hd09-1机器上创建主题t1 5、在hd09-2机器上启动消费者 6、在hd09-1机器上启动生产者 7、此时在hd09-1机器kafka生产者上输入 wo-henshu 阅读全文

posted @ 2018-12-18 20:29 末阅读(2059) 评论(0) 推荐(0)

Kafka简介及使用

摘要：一、Kafka概述二、kafka是什么？三、为什么要用消息队列四、kafka架构设计 Kafka介绍 Kafka架构五、kafka集群安装部署六、Kafka命令行操作七、Kafka简单API 1、Producer1类 kafka生产者API 接口回调 2、Producer2类 kafka 阅读全文

posted @ 2018-12-15 23:52 末阅读(1302) 评论(0) 推荐(0)

Hbase优化方案

摘要：1、预分区设计附：splits.txt 2、rowkey设计 3、HBase优化阅读全文

posted @ 2018-12-15 23:27 末阅读(230) 评论(0) 推荐(0)

HBase-MR

摘要：一、需求1：对一张表的rowkey进行计数二、需求2：本地数据导入到HBase中附：love.tsv 三、需求3：将HBase中love表进行指定列的筛选然后倒入到lovemr表 1、ReadLoveMapper类 2、WriteLoveReducer类 3、LoveDriver类四、需求4：阅读全文

posted @ 2018-12-09 20:49 末阅读(380) 评论(0) 推荐(0)

HBase简单API

摘要：一、使用IDEA的maven工程，工程结构如下：二、maven的依赖pom.xml文件三、hbase-site.xml，在HBase集群的{HBASE_HOME}/conf目录下下载到本地，放到resources资源目录下四、core-site.xml，在Hadoop集群的{HADOOP_HO 阅读全文

posted @ 2018-12-09 16:02 末阅读(1301) 评论(2) 推荐(0)

HBase读写流程

摘要：一、HBase读取数据流程二、HBase读取数据详细流程三、HBase写数据流程阅读全文

posted @ 2018-12-09 15:43 末阅读(213) 评论(0) 推荐(0)

HBase-shell操作

摘要：HBase结构阅读全文

posted @ 2018-12-09 14:51 末阅读(209) 评论(0) 推荐(0)

HBase简介及集群安装

摘要：HBase架构 Hadoop和ZooKeeper依赖阅读全文

posted @ 2018-12-09 14:19 末阅读(351) 评论(0) 推荐(0)

Azkaban简介及使用

摘要：一、Azkaban概述 Azkaban是一个分布式工作流管理器，在LinkedIn上实现，以解决Hadoop作业依赖性问题。我们有需要按顺序运行的工作，从ETL工作到数据分析产品。特点： 1）给用户提供了一个非常友好的可视化界面->web界面 2）非常方便的上传工作流-》打成压缩包 3）设置任务间的关系 4）权限设置-》删库到跑路 ... 阅读全文

posted @ 2018-12-01 19:28 末阅读(2981) 评论(0) 推荐(0)

Sqoop简介及使用

摘要：一、Sqoop概述 1）官网 http://sqoop.apache.org/ 2）场景传统型缺点，分布式存储。把传统型数据库数据迁移。 Apache Sqoop（TM）是一种用于在Apache Hadoop和结构化数据存储（如关系数据库）之间高效传输批量数据的工具。二、Sqoop安装部署 1）下载安装包 2）解压 tar -... 阅读全文

posted @ 2018-12-01 14:59 末阅读(1078) 评论(0) 推荐(0)

Hadoop总结

摘要：一、linux简介 01.Linux简介 linux是一种自由和开放源代码的类UNIX操作系统。该操作系统的内核由林纳斯·托瓦兹在1991年10月5日首次发布。，在加上用户空间的应用程序之后，成为Linux操作系统。应用：长时间的运行编写的程序代码，可以安装在各种计算机硬件设备中，如：手机、平板电脑、路由器等安卓最底层运行在linu... 阅读全文

posted @ 2018-11-04 23:01 末阅读(662) 评论(0) 推荐(0)

Hadoop优化

摘要：1、mr程序的效率瓶颈功能：分布式离线计算计算机性能：CPU、内存、磁盘、网络 I/O操作优化（1）数据倾斜（代码优化）（2）map和reduce数设置不合理（3）map运行时间太长，导致reduce等待过久（4）小文件过多（combineTextInputFomrat小文件合并）（5）不可分块的超大文件（不断的溢写）... 阅读全文

posted @ 2018-11-04 22:59 末阅读(310) 评论(0) 推荐(0)

Hadoop压缩

摘要：一、Hadoop压缩简介二、Hadoop压缩使用方式 1.Mapper类 2.Reducer类 3.Driver类 4.输入文件words.txt 5.输出文件的名字分别如下三、自定义压缩工具 1.自定义压缩工具类 2.输入文件名 3.输出文件名阅读全文

posted @ 2018-11-04 18:21 末阅读(457) 评论(0) 推荐(0)

mapjoin与reducejoin

摘要：一、mapjoin 1.Mapper类 2.Driver类 3.输入文件 4.输出文件part-m-00000 二、reducejoin 1.Mapper类 2.Reducer类 3.封装类 4.Driver类 5.输入文件 6.输出文件part-r-00000 阅读全文

posted @ 2018-11-04 17:59 末阅读(263) 评论(0) 推荐(0)

MapReduce自定义InputFormat和OutputFormat

摘要：一、自定义InputFormat 1.Mapper类 2.Reducer类 3.自定义InputFormat类 4.自定义RecordReader类 5.Driver类 6.输入小文件 7.输出文件part-r-00000 二、自定义OutputFormat 需求:过滤日志文件把包含main的放在阅读全文

posted @ 2018-11-04 15:57 末阅读(1029) 评论(0) 推荐(0)

MapReduce辅助排序

摘要：1.Mapper类 2.Reducer类 3.封装类 4.自定义分区类 5.自定义排序分组类 6.Driver类 7.mr输入文件order.java 8.输出文件阅读全文

posted @ 2018-11-04 15:13 末阅读(269) 评论(0) 推荐(0)

MapReduce分区和排序

摘要：一、排序二、分区和排序实例 1.Mapper类 2.Reducer类 3.封装类 4.自定义分区类 5.Driver类 6.输入的文件part-r-00000 7.如果第5步Driver类中的红色部分去掉，则输出全局排序后的文件part-r-00000 8.如果第5步Driver类中的红色部分不去阅读全文

posted @ 2018-10-26 00:15 末阅读(1563) 评论(0) 推荐(0)

MapReduce小文件优化与分区

摘要：一、小文件优化 1.Mapper类 2.Reducer类 3.Driver类二、分区 1.Mapper类 2.Reducer类 3.封装类 4.分区类 5.Driver类 6.输入的文件HTTP_20180313143750.dat 7.输出的文件阅读全文

posted @ 2018-10-25 23:38 末阅读(629) 评论(0) 推荐(0)

MapReduce分析流量汇总

摘要：一、MapReduce编程规范二、MapReduce分析流量汇总 1.Mapper类 2.Reducer类 3.Driver类 4.封装类，数据的传输 5.输入的文件HTTP_20180313143750.dat 6.输出的文件part-r-00000 阅读全文

posted @ 2018-10-25 23:13 末阅读(281) 评论(0) 推荐(0)

MapReduce的核心编程思想

摘要：1.MapReduce的核心编程思想 2.yarn集群工作机制 3.maptask并行度与决定机制 4.maptask工作机制 5.MapReduce整体流程 6.shuffle机制 7.yarn架构阅读全文

posted @ 2018-10-25 22:44 末阅读(1542) 评论(0) 推荐(0)

随笔分类 - 大数据