摘要: 一 ,自定义函数的类别 UDF 作用于单个数据行,产生一个数据行作为输出。(数学函数,字符串函数) UDAF(用户定义聚集函数):接收多个输入数据行,并产生一个输出数据行。(count,max) 二,UDF开发实例 1,开发一个Java类,继承UDF,并重载evaluate方法(手动重载)。 2,打 阅读全文
posted @ 2018-10-24 22:21 薄点 阅读(1608) 评论(0) 推荐(0) 编辑
摘要: 今天是1024,程序员节。因为1K=1024b ,1024对程序员是很有意义的一个数字。 世界上最遥远的距离,是我在if里,你在else里,似乎一直相伴又永远分离;世界上最痴心的等待,是我当case,你是switch,或许永远都选不上自己;世界上最真情的相依,是你在try,我在catch。无论你发神 阅读全文
posted @ 2018-10-24 08:21 薄点 阅读(752) 评论(0) 推荐(0) 编辑
摘要: 一,DDL操作 1,创建表 创建内部表 创建内部表 创建分区表 分表就是在加入数据前,对表进行相应需求的分开存储。 创建分桶表 对于每一个表或者是分区,Hive可以进一步组织成桶,也就是说桶是更为细粒度的数据范围划分。Hive是针对某一列进行分桶。Hive采用对列值哈希,然后除以桶的个数求余的方式决 阅读全文
posted @ 2018-10-23 21:20 薄点 阅读(182) 评论(0) 推荐(0) 编辑
摘要: 一,概述 1,hive是基于Hadoop的一个数据仓库工具。可以将结构化的数据文件(hdfs)映射为数据库表,并提供类sql查询功能。说白了,hive就是MapReduce客户端,对MapReduce的一个封装,将用户编写的HQL语法转换成MR程序进行执行。 2,hive特点: a)可扩展性:Hiv 阅读全文
posted @ 2018-10-23 16:31 薄点 阅读(253) 评论(0) 推荐(0) 编辑
摘要: 一,概述 Azkaban是由Linkedin开源的一个批量工作流任务调度器。用于在一个工作流内以一个特定的顺序运行一组工作和流程。Azkaban定义了一种KV文件格式来建立任务之间的依赖关系,并提供一个易于使用的web用户界面维护和跟踪你的工作流。 它有如下功能特点: Web用户界面。 方便上传工作 阅读全文
posted @ 2018-10-23 10:12 薄点 阅读(195) 评论(0) 推荐(0) 编辑
摘要: 一,sqoop概述 1,sqoop是apache旗下一款“Hadoop和关系数据库服务器之间传送数据”的工具。 导入数据:MySQL,Oracle导入数据到Hadoop的HDFS、HIVE、HBASE等数据存储系统。 导出数据:从Hadoop的文件系统中导出数据到关系数据库 二,工作机制 将导入或导 阅读全文
posted @ 2018-10-21 21:53 薄点 阅读(207) 评论(0) 推荐(0) 编辑
摘要: 一,准备环境 CentOs7,jdk1.7,hadoop -2.6.1, apache-flume-1.6.0-bin.tar.gz 二,编写配置文件 在/home/flume/conf的目录下 创建 配置文件 在/home下创建data文件夹 三,运行程序 在/home/flume 目录下运行代码 阅读全文
posted @ 2018-10-20 00:28 薄点 阅读(1538) 评论(0) 推荐(0) 编辑
摘要: 一,Flume概述 Flume是一个分布式,可靠的,高可用的海量日志采集,聚合和传输系统。 Flume的作用:支持在日志系统中定制各类数据的发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各数据的接受方(比如文本,HDFS,Hbase等)的功能。 二,组成 1、 Flume分布式 阅读全文
posted @ 2018-10-19 20:42 薄点 阅读(179) 评论(0) 推荐(0) 编辑
摘要: 数据:(基表:jibiao) 用户名,月份,访问次数 需求:求单月访问次数和总访问次数 实现需求的步骤: 1,先做一个表A。属性为name,month,sum(num)。插入基表的name和mon分组数据。 2,做一个视图,把和表A相同的表B和表A内关联。 3,视图AandB中amon>=bmon 阅读全文
posted @ 2018-10-19 17:07 薄点 阅读(1055) 评论(0) 推荐(0) 编辑
摘要: Hive 的 TRANSFORM 关键字提供了在 SQL 中调用自写脚本的功能。适合实现 Hive 中没有的 功能又不想写 UDF 的情况,脚本一般都是python写的。 Json 数据: {"movie":"1193","rate":"5","timeStamp":"978300760","uid 阅读全文
posted @ 2018-10-19 09:30 薄点 阅读(6038) 评论(0) 推荐(0) 编辑