随笔分类 -  5、1数据分析工具

数据分析工具:数据仓库(Hive国内用的多、Pig国外用的多,等)、数据挖掘(SparkMLLib、等)、OLAP(Druid国外、国内开源麒麟Kylin等)
摘要:1、Hive原理 2、HQL Hive数据库语言 3、自定义函数 4、数据仓库的设计 阅读全文
posted @ 2023-05-06 10:54 马踏飞燕Beautiful 阅读(26) 评论(0) 推荐(0)
摘要:命令解释: 实例: 阅读全文
posted @ 2022-01-18 11:48 马踏飞燕Beautiful 阅读(66) 评论(0) 推荐(0)
摘要:hive表连接没有SQL强,所以hive多构造大宽表,而不是,多个小表之间的表连接。hive表连接 join可以用,但是,效率低。下面,举一个可以用UNION ALL+group by +计算函数,代替表连接的例子。 - 需求:2019年每个用户的支付和退款金额汇总 --union allselec 阅读全文
posted @ 2022-01-14 16:16 马踏飞燕Beautiful 阅读(1617) 评论(0) 推荐(0)
摘要:UNION ALL:不去重不排序直接原表合并。UNION:先表合并、再去重、再排序。<=>作用等价于 先distinct去重、再UNION ALL表合并、再order by排序。 但是效率,后者是前者的3倍。所以,数据量大时,不建议直接用UNION,建议先去重再UNION ALL。 阅读全文
posted @ 2022-01-13 11:50 马踏飞燕Beautiful 阅读(2973) 评论(0) 推荐(0)
摘要:在1表但是不在2表的用户? 错误解释 :hive中的 in()不能调用子查询。这是hive与SQL的明显差异。 阅读全文
posted @ 2022-01-12 14:09 马踏飞燕Beautiful 阅读(101) 评论(0) 推荐(0)
摘要:背景: 其中的,get_json_object(表格目标字段(是JSON字符串),'$.目标字段中的某个键值对的键盘') 解释:JSON不是hive的一种字符类型,所以,不能用desc 命令去查询判断出来是不是JSON字符串。(explain命令是查看hive语句的执行逻辑先后顺序的,desc命令是 阅读全文
posted @ 2022-01-11 10:04 马踏飞燕Beautiful 阅读(1214) 评论(0) 推荐(0)
摘要: 阅读全文
posted @ 2021-12-13 10:13 马踏飞燕Beautiful 阅读(623) 评论(0) 推荐(0)
摘要:区分insert into 和 insert overowrite: 0、 命令格式 INSERT OVERWRITE|INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)] [(col1,col2 ...)] sele 阅读全文
posted @ 2020-05-07 12:14 马踏飞燕Beautiful 阅读(6700) 评论(0) 推荐(0)
摘要:随着数据收集手段不断丰富,行业数据大量积累,数据规模已增长到了传统软件行业无法承载的海量数据(百TB、PB、EB)级别。 1、种类 (1)Hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库工 阅读全文
posted @ 2020-05-07 10:56 马踏飞燕Beautiful 阅读(1276) 评论(0) 推荐(0)
摘要:Hive删除操作主要分为几大类:删除数据(保留表)、删除库表、删除分区。我将以下图为例清空iot_devicelocation中的数据,之后再删除表、库等。 解释: use xpu123; #使用的库为xpu123 show tables; #显示该库中的所有的表名 首先来看一下iot_deivce 阅读全文
posted @ 2020-05-07 08:39 马踏飞燕Beautiful 阅读(6855) 评论(0) 推荐(1)