08 2023 档案

Hive LAG函数分析
摘要:含义:LAG(col,n,DEFAULT) 用于统计窗口内往上第n行值 第一个参数为列名,第二个参数为往上第n行(可选,默认为1),第三个参数为默认值(当往上第n行为NULL时候,取默认值,如不指定,则为NULL) https://blog.csdn.net/weixin_43291055/arti 阅读全文

posted @ 2023-08-29 16:50 ExplorerMan 阅读(137) 评论(0) 推荐(1)

Hadoop----hdfs dfs常用命令的使用
摘要:-mkdir 创建目录 hdfs dfs -mkdir [-p] < paths> -ls 查看目录下内容,包括文件名,权限,所有者,大小和修改时间 hdfs dfs -ls [-R] < args> -put 将本地文件或目录上传到HDFS中的路径 hdfs dfs -put < localsrc 阅读全文

posted @ 2023-08-11 16:20 ExplorerMan 阅读(880) 评论(0) 推荐(0)

hive 的order by ,sort by,distribute by,cluster by
摘要:order by order by会对输入做全局排序,因此只有一个Reducer(多个Reducer无法保证全局有序),然而只有一个Reducer,会导致当输入规模较大时,消耗较长的计算时间,在生产环境中遇到数据量较大的情况,一般无法成功。 sort by sort by不是全局排序,其在数据进入r 阅读全文

posted @ 2023-08-10 21:48 ExplorerMan 阅读(68) 评论(0) 推荐(0)

大数据-hive 添加分区
摘要:1、静态分区1> 添加一个alter table t2 add partition (city=‘shanghai’);2> 添加多个alter table t2 add partition (city=‘chengdu’) partition(city=‘tianjin’);3> 添加分区指定位置 阅读全文

posted @ 2023-08-10 21:11 ExplorerMan 阅读(2616) 评论(0) 推荐(0)

导航