摘要: 1) OVER():指定分析函数工作的数据窗口大小,这个数据窗口大小可能会随着行的变而变化2)CURRENT ROW:当前行3)n PRECEDING:往前n行数据4) n FOLLOWING:往后n行数据5)UNBOUNDED:起点,UNBOUNDED PRECEDING 表示从前面的起点, UN 阅读全文
posted @ 2019-11-20 20:46 Y歪 阅读(164) 评论(0) 推荐(0)
摘要: RANK() 排序相同时会重复,总数不会变DENSE_RANK() 排序相同时会重复,总数会减少ROW_NUMBER() 会根据顺序计算 《小小的案例》 1)数据准备:#vi score.txt孙悟空 语文 87孙悟空 数学 95孙悟空 英语 68大海 语文 94大海 数学 56大海 英语 84宋宋 阅读全文
posted @ 2019-11-20 20:45 Y歪 阅读(3359) 评论(0) 推荐(0)
摘要: 1.内部表和外部表1)管理表:当我们删除一个管理表时,Hive也会删除这个表中数据。管理表不适合和其他工具共享数据。2)外部表:删除该表并不会删除掉原始数据,删除的是表的元数据 2.管理表和外部表的使用场景每天将收集到的网站日志定期流入HDFS文本文件。在外部表(原始日志表)的基础上做大量的统计分析 阅读全文
posted @ 2019-11-20 20:29 Y歪 阅读(2781) 评论(0) 推荐(0)
摘要: 阅读全文
posted @ 2019-11-20 20:25 Y歪 阅读(225) 评论(0) 推荐(0)
摘要: 1.用户接口:Client CLI(hive shell)、JDBC/ODBC(java访问hive)、WEBUI(浏览器访问hive) 2.元数据:Metastore 元数据包括:表名、表所属的数据库(默认是default)、表的拥有者、列/分区字段、表的类型(是否是外部表)、表的数据所在目录等; 阅读全文
posted @ 2019-11-20 20:18 Y歪 阅读(192) 评论(0) 推荐(0)
摘要: Azkaba内置的任务类型支持command、java 3.1单一job案例 1)创建job描述文件 [atguigu@hadoop102 jobs]$ vim first.job #first.job type=command command=echo 'this is my first job' 阅读全文
posted @ 2019-11-18 18:49 Y歪 阅读(206) 评论(0) 推荐(0)
摘要: 一 概述 1.1 为什么需要工作流调度系统 1)一个完整的数据分析系统通常都是由大量任务单元组成: shell脚本程序,java程序,mapreduce程序、hive脚本等 2)各任务单元之间存在时间先后及前后依赖关系 3)为了很好地组织起这样的复杂执行计划,需要一个工作流调度系统来调度执行; 例如 阅读全文
posted @ 2019-11-18 17:14 Y歪 阅读(253) 评论(0) 推荐(0)
摘要: Oozie和Azkaban的区别: 工作流定义:Oozie是通过xml定义的而Azkaban为properties来定义。 部署过程:Oozie的部署相对困难些,同时它是从Yarn上拉任务日志。 Azkaban中如果有任务出现失败,只要进程有效执行,那么任务就算执行成功,这是BUG,但是Oozie能 阅读全文
posted @ 2019-09-24 09:22 Y歪 阅读(783) 评论(0) 推荐(0)
摘要: 前言:一台服务器上安装三主三从,很少有公司这个做的,大部分都是三台服务器,每台服务器上面分别有主从。但都是大同小异 服务器IP:192.168.181.131 Redis版本:redis-3.2.1 Redis端口号:7000 7001 7002 7003 7004 7005 安装: 1)下载:ht 阅读全文
posted @ 2019-09-11 20:16 Y歪 阅读(642) 评论(0) 推荐(0)
摘要: 前言:安装过redis,在非正常的情况下将redis的安装包直接删除了,再次安装报错: cd src && make all make[1]: Entering directory '/xx/xx/redis-x.x.x/src' CC adlist.o /bin/sh: cc: command n 阅读全文
posted @ 2019-09-11 19:16 Y歪 阅读(13349) 评论(0) 推荐(1)