上一页 1 ··· 3 4 5 6 7 8 9 10 11 ··· 16 下一页
摘要: Hbase的特点及其生态系统 在Hive中主要做的:传入一条交互式的SQL,在海量数据中查询分析(主要是分析计算) 交互式(REPL):传入一条SQL,返回结果 Read:读,Eval:执行,Print:输出,Loop:循环 1、Hbase的特点 1、适用于实时查询,不能做分析 2、NoSQL,非关 阅读全文
posted @ 2022-02-25 21:02 阿伟宝座 阅读(186) 评论(0) 推荐(1)
摘要: 连续登陆问题案例 在电商、物流和银行可能经常会遇到这样的需求:统计用户连续交易的总额、连续登陆天数、连续登陆开始和结束时间、间隔天数等 数据: 注意:每个用户每天可能会有多条记录 amount表示金额 id datestr amount 1,2019-02-08,6214.23 1,2019-02- 阅读全文
posted @ 2022-02-25 20:14 阿伟宝座 阅读(204) 评论(0) 推荐(0)
摘要: Hive数仓建模 基于Hive数据仓库建模 Hive-数据仓库建模架构 Hive-数据仓库建模方式 Hive-数据仓库建模范式 Hive-数仓一些专业表称谓 https://blog.csdn.net/zhaodedong/article/details/54177686 阅读全文
posted @ 2022-02-25 00:09 阿伟宝座 阅读(603) 评论(0) 推荐(0)
摘要: Hive调优 一、Hive建表调优 1、分区:大部分按照日期分区:变化快的按照每天的数据放在一个分区里,变化慢的按照每月 分桶:看数据分布地均不均匀,如果不均匀按照分桶表给它划分一下 补充:分区、分桶一般用于设计、架构的时候用到(现阶段用不到) 2、工作上一般使用外部表,避免数据误删。建表的时候需要 阅读全文
posted @ 2022-02-25 00:00 阿伟宝座 阅读(305) 评论(0) 推荐(0)
摘要: Hive结合shell脚本企业实战用法 1、Linux设置定时任务 编辑定时任务 [root@master ]#crontab -e * * * * * 第1个*:表示分钟 第2个*:表示小时 第3个*:表示星期几 第4个*:表示几号 第5个*:表示月份 举例: 每分钟执行一次hql.sh脚本,将其 阅读全文
posted @ 2022-02-23 19:50 阿伟宝座 阅读(512) 评论(0) 推荐(0)
摘要: 1、Hive 中的wordCount explode:一对多,拆分一行,返回多行 posexplode:一对多,拆分一行,返回多行,并生成对应的索引值 聚合函数:多对一,聚合多行,返回一行 explode: (1)将数组中的元素拆分成多行显示 举例: hive> select explode(arr 阅读全文
posted @ 2022-02-23 16:21 阿伟宝座 阅读(1070) 评论(0) 推荐(0)
摘要: Hive 高级函数 开窗函数 用户分组中开窗,好像给每一份数据 开一扇窗户 所以叫开窗函数 在sql中有一类函数叫做聚合函数,例如sum()、avg()、max()等等,这类函数可以将多行数据按照规则聚集为一行,一般来讲聚集后的行数是要少于聚集前的行数的.但是有时我们想要既显示聚集前的数据,又要显示 阅读全文
posted @ 2022-02-21 22:51 阿伟宝座 阅读(2246) 评论(0) 推荐(0)
摘要: Hive 常用函数 关系运算 (1)等值比较 = == <=> (2)不等值比较 != <> (3)区间比较: 左闭右闭 select * from default.students where id between 1500100001 and 1500100010; (4)空值/非空值判断:is 阅读全文
posted @ 2022-02-20 21:47 阿伟宝座 阅读(195) 评论(0) 推荐(0)
摘要: Hive HQL语法:DDL、DQL 1、DDL 创建数据库 create database 库名; 查看数据库 show databases; 删除数据库 drop database 库名; 强制删除数据库:drop database tmp cascade; 查看表:SHOW TABLES; 查 阅读全文
posted @ 2022-02-20 20:48 阿伟宝座 阅读(119) 评论(0) 推荐(0)
摘要: Hive数据类型 整型:TINYINT、SMALLINT、INT、BIGINT(Hive常用) 浮点:FLOAT、DOUBLE(Hive常用) 布尔类型:BOOL (False/True) 字符串:STRING(Hive常用) 时间类型: 时间戳 timestamp Timestamp 格式:(年- 阅读全文
posted @ 2022-02-20 19:36 阿伟宝座 阅读(547) 评论(0) 推荐(0)
摘要: Hive笔记3:Hive分桶、Hive JDBC 一、Hive分桶 分桶实际上是对文件(数据)的进一步切分 Hive默认关闭分桶 作用:在往分桶表中插入数据的时候,会根据 clustered by 指定的字段 进行hash分区 对指定的buckets个数 进行取余,进而可以将数据分割成buckets 阅读全文
posted @ 2022-02-20 15:44 阿伟宝座 阅读(127) 评论(0) 推荐(0)
摘要: Hive笔记2:Hive分区、Hive动态分区 一、Hive 分区 分区表实际上是在表的目录下再建一个子目录 作用:进行分区裁剪,避免全表扫描,减少MapReduce处理的数据量,提高效率 一般在公司的hive中,所有的表基本上都是分区表,通常按日期分区、地域分区 分区表在使用的时候记得加上分区字段 阅读全文
posted @ 2022-02-20 10:57 阿伟宝座 阅读(1363) 评论(0) 推荐(0)
摘要: 一、Hive 查看SQL解析计划 #extended:展开。可选,可以打印更多细节 #explain:解释 #在最前端加个explain,查看SQL解析计划 explain [extended] select a.id ,a.name ,a.clazz ,t1.sum_score from( sel 阅读全文
posted @ 2022-02-18 23:37 阿伟宝座 阅读(2355) 评论(0) 推荐(0)
摘要: Hive架构图以及Hive练习题 一、架构图 二、练习题 在HDFS中有个默认地址:/usr/hive/warehouse/数据库名/表名 该数据库名和表名就是通过shell在Hive创建的 1、模仿建表语句,创建科目subject表,并使用hdfs dfs -put 命令加载数据(上传数据) cr 阅读全文
posted @ 2022-02-18 20:28 阿伟宝座 阅读(150) 评论(0) 推荐(0)
摘要: Hive搭建及其测试 Hive的安装和使用 ​ 我们的版本约定: ​ JAVA_HOME=/usr/local/soft/jdk1.8.0_171 ​ HADOOP_HOME=/usr/local/soft/hadoop-2.7.6 ​ HIVE_HOME=/usr/local/soft/hive- 阅读全文
posted @ 2022-02-17 23:05 阿伟宝座 阅读(332) 评论(0) 推荐(0)
上一页 1 ··· 3 4 5 6 7 8 9 10 11 ··· 16 下一页