摘要: 一,实现思路 1,先mapreduces得到并传递数据。 2,写好连接表,创建表,插入表hbase数据库的工具。 3,在reduces中调用写好的hbase工具。 4,main类提交。 二,代码书写 1,mapper 2,hbase工具类 3,reducer 4,main 阅读全文
posted @ 2018-11-04 20:36 薄点 阅读(4439) 评论(0) 推荐(0) 编辑
摘要: 一,kafka概述 Kafka是一个高吞吐量的、持久性的、分布式发布/订阅消息系统。 它主要用于处理活跃的数据(登录、浏览、点击、分享、喜欢等用户行为产生的数据)。 在流式计算中,Kafka一般用来缓存数据,Storm通过消费Kafka的数据进行计算。 Kafka是一个分布式消息队列:生产者、消费者 阅读全文
posted @ 2018-11-04 17:32 薄点 阅读(158) 评论(0) 推荐(0) 编辑
摘要: 一,环境搭建 eclipse的项目的创键和jar包的导入。 二,代码编写 1,组件spout的代码编写,用来发射数据源。 package com; import java.util.Map; import java.util.Random; import org.apache.storm.spout 阅读全文
posted @ 2018-11-03 16:03 薄点 阅读(437) 评论(0) 推荐(0) 编辑
摘要: 一,概述 Storm用来实时计算源源不断产生的数据,如同流水线生产。 Storm用来实时处理数据,特点:低延迟、高可用、分布式、可扩展、数据不丢失。提供简单容易理解的接口,便于开发。 二,storm和hadoop的区别 Storm用于实时计算,Hadoop用于离线计算。 Storm处理的数据保存在内 阅读全文
posted @ 2018-11-03 15:42 薄点 阅读(389) 评论(0) 推荐(0) 编辑
摘要: 一,Hbase概述 HBase是建 立在 HDFS 之上,被设计用来提供高可靠性、高性能、列存储、可伸缩、多版本的 NoSQL 的分布式数据存储系统,实现对大型数据的实时、随机的读写访问。 HBase 依赖于 HDFS 做底层的数据存储, 依赖于 MapReduce 做数据计算, 依赖于 ZooKe 阅读全文
posted @ 2018-10-29 23:27 薄点 阅读(214) 评论(0) 推荐(0) 编辑
摘要: 本文转载于csdn博主‘一直不懂’ 一,项目业务背景 https://blog.csdn.net/shenchaohao12321/article/details/82958936 二,整体技术流程及架构 https://blog.csdn.net/shenchaohao12321/article/ 阅读全文
posted @ 2018-10-29 09:45 薄点 阅读(1333) 评论(0) 推荐(0) 编辑
摘要: 数据(基表course): 需求:编写Hive的HQL语句来实现以下结果:表中的1表示选修,表中的0表示未选修。 实现需求的步骤: 使用case...when...将不同的课程名称转换成不同的列。 阅读全文
posted @ 2018-10-25 16:56 薄点 阅读(415) 评论(0) 推荐(0) 编辑
摘要: 数据(基表:store): 需求:求出每个店铺的当月销售额和累计到当月的总销售额。 实现需求步骤: 1,做出店铺,月份,营业额的表。 2,做出内链接的视图。 3,通过视图来进行月份的比较,来对销售额进行积累。 阅读全文
posted @ 2018-10-25 16:21 薄点 阅读(2123) 评论(0) 推荐(0) 编辑
摘要: 基表(weather): 需求:求每一年的最大温度和当时的日期。 实现需求的步骤: 1,处理基表,把基表转换成年,月,日,温度的形式。 2,创建一个每年的最大温度的视图。 3,两表内链接查出最大温度的日期。 阅读全文
posted @ 2018-10-25 15:13 薄点 阅读(471) 评论(0) 推荐(0) 编辑
摘要: 基表: use myhive;CREATE TABLE `course` ( `id` int, `sid` int , `course` string, `score` int ) ; INSERT INTO `course` VALUES (1, 1, 'yuwen', 43);INSERT I 阅读全文
posted @ 2018-10-25 10:33 薄点 阅读(1074) 评论(0) 推荐(0) 编辑