博客园 - 薄点
uuid:24b78886-0ed1-41c2-8670-e3f31dcf42c4;id=57924
2018-11-04T12:36:27Z
薄点
https://www.cnblogs.com/songweideboke/
feed.cnblogs.com
https://www.cnblogs.com/songweideboke/p/9905625.html
hbase实战之javaAPI插入数据 - 薄点
一,实现思路 1,先mapreduces得到并传递数据。 2,写好连接表,创建表,插入表hbase数据库的工具。 3,在reduces中调用写好的hbase工具。 4,main类提交。 二,代码书写 1,mapper 2,hbase工具类 3,reducer 4,main
2018-11-04T12:36:00Z
2018-11-04T12:36:00Z
薄点
https://www.cnblogs.com/songweideboke/
【摘要】一,实现思路 1,先mapreduces得到并传递数据。 2,写好连接表,创建表,插入表hbase数据库的工具。 3,在reduces中调用写好的hbase工具。 4,main类提交。 二,代码书写 1,mapper 2,hbase工具类 3,reducer 4,main <a href="https://www.cnblogs.com/songweideboke/p/9905625.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/songweideboke/p/9904852.html
kafka学习笔记 - 薄点
一,kafka概述 Kafka是一个高吞吐量的、持久性的、分布式发布/订阅消息系统。 它主要用于处理活跃的数据(登录、浏览、点击、分享、喜欢等用户行为产生的数据)。 在流式计算中,Kafka一般用来缓存数据,Storm通过消费Kafka的数据进行计算。 Kafka是一个分布式消息队列:生产者、消费者
2018-11-04T09:32:00Z
2018-11-04T09:32:00Z
薄点
https://www.cnblogs.com/songweideboke/
【摘要】一,kafka概述 Kafka是一个高吞吐量的、持久性的、分布式发布/订阅消息系统。 它主要用于处理活跃的数据(登录、浏览、点击、分享、喜欢等用户行为产生的数据)。 在流式计算中,Kafka一般用来缓存数据,Storm通过消费Kafka的数据进行计算。 Kafka是一个分布式消息队列:生产者、消费者 <a href="https://www.cnblogs.com/songweideboke/p/9904852.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/songweideboke/p/9901083.html
storm实战之WordCount - 薄点
一,环境搭建 eclipse的项目的创键和jar包的导入。 二,代码编写 1,组件spout的代码编写,用来发射数据源。 package com; import java.util.Map; import java.util.Random; import org.apache.storm.spout
2018-11-03T08:03:00Z
2018-11-03T08:03:00Z
薄点
https://www.cnblogs.com/songweideboke/
【摘要】一,环境搭建 eclipse的项目的创键和jar包的导入。 二,代码编写 1,组件spout的代码编写,用来发射数据源。 package com; import java.util.Map; import java.util.Random; import org.apache.storm.spout <a href="https://www.cnblogs.com/songweideboke/p/9901083.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/songweideboke/p/9900976.html
storm学习笔记 - 薄点
一,概述 Storm用来实时计算源源不断产生的数据,如同流水线生产。 Storm用来实时处理数据,特点:低延迟、高可用、分布式、可扩展、数据不丢失。提供简单容易理解的接口,便于开发。 二,storm和hadoop的区别 Storm用于实时计算,Hadoop用于离线计算。 Storm处理的数据保存在内
2018-11-03T07:42:00Z
2018-11-03T07:42:00Z
薄点
https://www.cnblogs.com/songweideboke/
【摘要】一,概述 Storm用来实时计算源源不断产生的数据,如同流水线生产。 Storm用来实时处理数据,特点:低延迟、高可用、分布式、可扩展、数据不丢失。提供简单容易理解的接口,便于开发。 二,storm和hadoop的区别 Storm用于实时计算,Hadoop用于离线计算。 Storm处理的数据保存在内 <a href="https://www.cnblogs.com/songweideboke/p/9900976.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/songweideboke/p/9874068.html
Hbase学习笔记 - 薄点
一,Hbase概述 HBase是建 立在 HDFS 之上,被设计用来提供高可靠性、高性能、列存储、可伸缩、多版本的 NoSQL 的分布式数据存储系统,实现对大型数据的实时、随机的读写访问。 HBase 依赖于 HDFS 做底层的数据存储, 依赖于 MapReduce 做数据计算, 依赖于 ZooKe
2018-10-29T15:27:00Z
2018-10-29T15:27:00Z
薄点
https://www.cnblogs.com/songweideboke/
【摘要】一,Hbase概述 HBase是建 立在 HDFS 之上,被设计用来提供高可靠性、高性能、列存储、可伸缩、多版本的 NoSQL 的分布式数据存储系统,实现对大型数据的实时、随机的读写访问。 HBase 依赖于 HDFS 做底层的数据存储, 依赖于 MapReduce 做数据计算, 依赖于 ZooKe <a href="https://www.cnblogs.com/songweideboke/p/9874068.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/songweideboke/p/9868886.html
Hadoop实战项目之网站数据点击流分析(转载分析) - 薄点
本文转载于csdn博主‘一直不懂’ 一,项目业务背景 https://blog.csdn.net/shenchaohao12321/article/details/82958936 二,整体技术流程及架构 https://blog.csdn.net/shenchaohao12321/article/
2018-10-29T01:45:00Z
2018-10-29T01:45:00Z
薄点
https://www.cnblogs.com/songweideboke/
【摘要】本文转载于csdn博主‘一直不懂’ 一,项目业务背景 https://blog.csdn.net/shenchaohao12321/article/details/82958936 二,整体技术流程及架构 https://blog.csdn.net/shenchaohao12321/article/ <a href="https://www.cnblogs.com/songweideboke/p/9868886.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/songweideboke/p/9851033.html
Hive实战之学生选课 - 薄点
数据(基表course): 需求:编写Hive的HQL语句来实现以下结果:表中的1表示选修,表中的0表示未选修。 实现需求的步骤: 使用case...when...将不同的课程名称转换成不同的列。
2018-10-25T08:56:00Z
2018-10-25T08:56:00Z
薄点
https://www.cnblogs.com/songweideboke/
【摘要】数据(基表course): 需求:编写Hive的HQL语句来实现以下结果:表中的1表示选修,表中的0表示未选修。 实现需求的步骤: 使用case...when...将不同的课程名称转换成不同的列。 <a href="https://www.cnblogs.com/songweideboke/p/9851033.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/songweideboke/p/9850646.html
Hive实战之求月销售额和累计销售额 - 薄点
数据(基表:store): 需求:求出每个店铺的当月销售额和累计到当月的总销售额。 实现需求步骤: 1,做出店铺,月份,营业额的表。 2,做出内链接的视图。 3,通过视图来进行月份的比较,来对销售额进行积累。
2018-10-25T08:21:00Z
2018-10-25T08:21:00Z
薄点
https://www.cnblogs.com/songweideboke/
【摘要】数据(基表:store): 需求:求出每个店铺的当月销售额和累计到当月的总销售额。 实现需求步骤: 1,做出店铺,月份,营业额的表。 2,做出内链接的视图。 3,通过视图来进行月份的比较,来对销售额进行积累。 <a href="https://www.cnblogs.com/songweideboke/p/9850646.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/songweideboke/p/9849978.html
Hive实战之每年最高温度+时间 - 薄点
基表(weather): 需求:求每一年的最大温度和当时的日期。 实现需求的步骤: 1,处理基表,把基表转换成年,月,日,温度的形式。 2,创建一个每年的最大温度的视图。 3,两表内链接查出最大温度的日期。
2018-10-25T07:13:00Z
2018-10-25T07:13:00Z
薄点
https://www.cnblogs.com/songweideboke/
【摘要】基表(weather): 需求:求每一年的最大温度和当时的日期。 实现需求的步骤: 1,处理基表,把基表转换成年,月,日,温度的形式。 2,创建一个每年的最大温度的视图。 3,两表内链接查出最大温度的日期。 <a href="https://www.cnblogs.com/songweideboke/p/9849978.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/songweideboke/p/9848242.html
Hive实战之学生课程成绩 - 薄点
基表: use myhive;CREATE TABLE `course` ( `id` int, `sid` int , `course` string, `score` int ) ; INSERT INTO `course` VALUES (1, 1, 'yuwen', 43);INSERT I
2018-10-25T02:33:00Z
2018-10-25T02:33:00Z
薄点
https://www.cnblogs.com/songweideboke/
【摘要】基表: use myhive;CREATE TABLE `course` ( `id` int, `sid` int , `course` string, `score` int ) ; INSERT INTO `course` VALUES (1, 1, 'yuwen', 43);INSERT I <a href="https://www.cnblogs.com/songweideboke/p/9848242.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/songweideboke/p/9846606.html
HIVE自定义函数 - 薄点
一 ,自定义函数的类别 UDF 作用于单个数据行,产生一个数据行作为输出。(数学函数,字符串函数) UDAF(用户定义聚集函数):接收多个输入数据行,并产生一个输出数据行。(count,max) 二,UDF开发实例 1,开发一个Java类,继承UDF,并重载evaluate方法(手动重载)。 2,打
2018-10-24T14:21:00Z
2018-10-24T14:21:00Z
薄点
https://www.cnblogs.com/songweideboke/
【摘要】一 ,自定义函数的类别 UDF 作用于单个数据行,产生一个数据行作为输出。(数学函数,字符串函数) UDAF(用户定义聚集函数):接收多个输入数据行,并产生一个输出数据行。(count,max) 二,UDF开发实例 1,开发一个Java类,继承UDF,并重载evaluate方法(手动重载)。 2,打 <a href="https://www.cnblogs.com/songweideboke/p/9846606.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/songweideboke/p/9841439.html
1024 - 薄点
今天是1024,程序员节。因为1K=1024b ,1024对程序员是很有意义的一个数字。 世界上最遥远的距离,是我在if里,你在else里,似乎一直相伴又永远分离;世界上最痴心的等待,是我当case,你是switch,或许永远都选不上自己;世界上最真情的相依,是你在try,我在catch。无论你发神
2018-10-24T00:21:00Z
2018-10-24T00:21:00Z
薄点
https://www.cnblogs.com/songweideboke/
【摘要】今天是1024,程序员节。因为1K=1024b ,1024对程序员是很有意义的一个数字。 世界上最遥远的距离,是我在if里,你在else里,似乎一直相伴又永远分离;世界上最痴心的等待,是我当case,你是switch,或许永远都选不上自己;世界上最真情的相依,是你在try,我在catch。无论你发神 <a href="https://www.cnblogs.com/songweideboke/p/9841439.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/songweideboke/p/9839473.html
Hive基本操作 - 薄点
一,DDL操作 1,创建表 创建内部表 创建内部表 创建分区表 分表就是在加入数据前,对表进行相应需求的分开存储。 创建分桶表 对于每一个表或者是分区,Hive可以进一步组织成桶,也就是说桶是更为细粒度的数据范围划分。Hive是针对某一列进行分桶。Hive采用对列值哈希,然后除以桶的个数求余的方式决
2018-10-23T13:20:00Z
2018-10-23T13:20:00Z
薄点
https://www.cnblogs.com/songweideboke/
【摘要】一,DDL操作 1,创建表 创建内部表 创建内部表 创建分区表 分表就是在加入数据前,对表进行相应需求的分开存储。 创建分桶表 对于每一个表或者是分区,Hive可以进一步组织成桶,也就是说桶是更为细粒度的数据范围划分。Hive是针对某一列进行分桶。Hive采用对列值哈希,然后除以桶的个数求余的方式决 <a href="https://www.cnblogs.com/songweideboke/p/9839473.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/songweideboke/p/9837455.html
hive学习笔记 - 薄点
一,概述 1,hive是基于Hadoop的一个数据仓库工具。可以将结构化的数据文件(hdfs)映射为数据库表,并提供类sql查询功能。说白了,hive就是MapReduce客户端,对MapReduce的一个封装,将用户编写的HQL语法转换成MR程序进行执行。 2,hive特点: a)可扩展性:Hiv
2018-10-23T08:31:00Z
2018-10-23T08:31:00Z
薄点
https://www.cnblogs.com/songweideboke/
【摘要】一,概述 1,hive是基于Hadoop的一个数据仓库工具。可以将结构化的数据文件(hdfs)映射为数据库表,并提供类sql查询功能。说白了,hive就是MapReduce客户端,对MapReduce的一个封装,将用户编写的HQL语法转换成MR程序进行执行。 2,hive特点: a)可扩展性:Hiv <a href="https://www.cnblogs.com/songweideboke/p/9837455.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/songweideboke/p/9835061.html
azkaban 学习笔记 - 薄点
一,概述 Azkaban是由Linkedin开源的一个批量工作流任务调度器。用于在一个工作流内以一个特定的顺序运行一组工作和流程。Azkaban定义了一种KV文件格式来建立任务之间的依赖关系,并提供一个易于使用的web用户界面维护和跟踪你的工作流。 它有如下功能特点: Web用户界面。 方便上传工作
2018-10-23T02:12:00Z
2018-10-23T02:12:00Z
薄点
https://www.cnblogs.com/songweideboke/
【摘要】一,概述 Azkaban是由Linkedin开源的一个批量工作流任务调度器。用于在一个工作流内以一个特定的顺序运行一组工作和流程。Azkaban定义了一种KV文件格式来建立任务之间的依赖关系,并提供一个易于使用的web用户界面维护和跟踪你的工作流。 它有如下功能特点: Web用户界面。 方便上传工作 <a href="https://www.cnblogs.com/songweideboke/p/9835061.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/songweideboke/p/9827148.html
sqoop数据迁移学习笔记 - 薄点
一,sqoop概述 1,sqoop是apache旗下一款“Hadoop和关系数据库服务器之间传送数据”的工具。 导入数据:MySQL,Oracle导入数据到Hadoop的HDFS、HIVE、HBASE等数据存储系统。 导出数据:从Hadoop的文件系统中导出数据到关系数据库 二,工作机制 将导入或导
2018-10-21T13:53:00Z
2018-10-21T13:53:00Z
薄点
https://www.cnblogs.com/songweideboke/
【摘要】一,sqoop概述 1,sqoop是apache旗下一款“Hadoop和关系数据库服务器之间传送数据”的工具。 导入数据:MySQL,Oracle导入数据到Hadoop的HDFS、HIVE、HBASE等数据存储系统。 导出数据:从Hadoop的文件系统中导出数据到关系数据库 二,工作机制 将导入或导 <a href="https://www.cnblogs.com/songweideboke/p/9827148.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/songweideboke/p/9820001.html
Flume案例之采集特定目录的数据到HDFS - 薄点
一,准备环境 CentOs7,jdk1.7,hadoop -2.6.1, apache-flume-1.6.0-bin.tar.gz 二,编写配置文件 在/home/flume/conf的目录下 创建 配置文件 在/home下创建data文件夹 三,运行程序 在/home/flume 目录下运行代码
2018-10-19T16:28:00Z
2018-10-19T16:28:00Z
薄点
https://www.cnblogs.com/songweideboke/
【摘要】一,准备环境 CentOs7,jdk1.7,hadoop -2.6.1, apache-flume-1.6.0-bin.tar.gz 二,编写配置文件 在/home/flume/conf的目录下 创建 配置文件 在/home下创建data文件夹 三,运行程序 在/home/flume 目录下运行代码 <a href="https://www.cnblogs.com/songweideboke/p/9820001.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/songweideboke/p/9818675.html
Flume学习笔记 - 薄点
一,Flume概述 Flume是一个分布式,可靠的,高可用的海量日志采集,聚合和传输系统。 Flume的作用:支持在日志系统中定制各类数据的发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各数据的接受方(比如文本,HDFS,Hbase等)的功能。 二,组成 1、 Flume分布式
2018-10-19T12:42:00Z
2018-10-19T12:42:00Z
薄点
https://www.cnblogs.com/songweideboke/
【摘要】一,Flume概述 Flume是一个分布式,可靠的,高可用的海量日志采集,聚合和传输系统。 Flume的作用:支持在日志系统中定制各类数据的发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各数据的接受方(比如文本,HDFS,Hbase等)的功能。 二,组成 1、 Flume分布式 <a href="https://www.cnblogs.com/songweideboke/p/9818675.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/songweideboke/p/9817514.html
Hive实战之单月访问次数和总访问次数 - 薄点
数据:(基表:jibiao) 用户名,月份,访问次数 需求:求单月访问次数和总访问次数 实现需求的步骤: 1,先做一个表A。属性为name,month,sum(num)。插入基表的name和mon分组数据。 2,做一个视图,把和表A相同的表B和表A内关联。 3,视图AandB中amon>=bmon
2018-10-19T09:07:00Z
2018-10-19T09:07:00Z
薄点
https://www.cnblogs.com/songweideboke/
【摘要】数据:(基表:jibiao) 用户名,月份,访问次数 需求:求单月访问次数和总访问次数 实现需求的步骤: 1,先做一个表A。属性为name,month,sum(num)。插入基表的name和mon分组数据。 2,做一个视图,把和表A相同的表B和表A内关联。 3,视图AandB中amon>=bmon <a href="https://www.cnblogs.com/songweideboke/p/9817514.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/songweideboke/p/9814604.html
Hive的Transform的实现 - 薄点
Hive 的 TRANSFORM 关键字提供了在 SQL 中调用自写脚本的功能。适合实现 Hive 中没有的 功能又不想写 UDF 的情况,脚本一般都是python写的。 Json 数据: {"movie":"1193","rate":"5","timeStamp":"978300760","uid
2018-10-19T01:30:00Z
2018-10-19T01:30:00Z
薄点
https://www.cnblogs.com/songweideboke/
【摘要】Hive 的 TRANSFORM 关键字提供了在 SQL 中调用自写脚本的功能。适合实现 Hive 中没有的 功能又不想写 UDF 的情况,脚本一般都是python写的。 Json 数据: {"movie":"1193","rate":"5","timeStamp":"978300760","uid <a href="https://www.cnblogs.com/songweideboke/p/9814604.html" target="_blank">阅读全文</a>