随笔分类 -  Hive

摘要:官方文档:https://cwiki.apache.org/confluence/display/Hive/HiveServer2+Clients beeline 的常用参数 The Beeline CLI 支持以下命令行参数: Option Description --autoCommit=[tr 阅读全文
posted @ 2020-03-24 11:30 一个人、一座城 阅读(1428) 评论(0) 推荐(0)
摘要:Hive的参数设置方式 1、配置文件 (全局有效) 2、命令行参数(对 hive 启动实例有效) 3、参数声明 (对 hive 的连接 session 有效) (1)配置文件 Hive 的配置文件包括: A. 用户自定义配置文件:$HIVE_CONF_DIR/hive-site.xml B. 默认配 阅读全文
posted @ 2019-07-26 14:18 一个人、一座城 阅读(3057) 评论(0) 推荐(1)
摘要:hive中有四种排序: 1、全局排序:order by 2、内部排序:sort by 3、分区排序:distribute by 4、组合排序:cluster by 全局排序:order by 说明:全局排序是在一个MapReduce中进行排序的。 参数: ASC:是升序的意思和mysql一样,同时也 阅读全文
posted @ 2019-07-26 14:08 一个人、一座城 阅读(865) 评论(0) 推荐(0)
摘要:基本类型 类型名称 大小 最小值 最大值 示例 TINYINT 1byte -128 127 100Y SMALLINT 2byte -32768 32767 100S INT 4byte -2,147,483,648 2,147,483,647 100 BIGINT 8byte -9,223,37 阅读全文
posted @ 2019-07-23 10:56 一个人、一座城 阅读(961) 评论(0) 推荐(0)
摘要:加载数据,2种方式 从文件加载到Hive表 从查询插入到Hive表 阅读全文
posted @ 2019-07-23 10:44 一个人、一座城 阅读(142) 评论(0) 推荐(0)
摘要:创建简单表 创建分区表 一个表可以拥有一个或者多个分区,每个分区以文件夹的形式单独存在表文件夹的目录下。 分区是以字段的形式在表结构中存在,通过describe table命令可以查看到字段存在,但是该字段不存放实际的数据内容,仅仅是分区的表示。 在Hive Select查询中一般会扫描整个表内容, 阅读全文
posted @ 2019-07-23 10:38 一个人、一座城 阅读(670) 评论(0) 推荐(0)
摘要:1、row_number、rank、dense_rank ROW_NUMBER() –从1开始,按照顺序,生成分组内记录的序列 RANK() 生成数据项在分组中的排名,排名相等会在名次中留下空位 DENSE_RANK() 生成数据项在分组中的排名,排名相等会在名次中不会留下空位 2、sum、avg、 阅读全文
posted @ 2019-07-17 11:13 一个人、一座城 阅读(1021) 评论(0) 推荐(0)
摘要:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF#LanguageManualUDF-StringFunctions 阅读全文
posted @ 2019-07-11 16:34 一个人、一座城 阅读(494) 评论(0) 推荐(0)
摘要:1、lateral view 将一列数据拆成多行数据 lateral view用于和split, explode等UDTF一起使用,它能够将一行数据拆成多行数据,在此基础上可以对拆分后的数据进行聚合。lateral view首先为原始表的每行调用UDTF,UTDF会把一行拆分成一或者多行,later 阅读全文
posted @ 2019-07-04 15:39 一个人、一座城 阅读(420) 评论(0) 推荐(0)
摘要:软件环境: VMware:VMware® Workstation 15 Pro CentOS7:CentOS-7-x86_64-DVD-1810.iso JDK:jdk-8u211-linux-x64.tar.gz Hadoop:hadoop-3.1.2.tar.gz Hive:apache-hiv 阅读全文
posted @ 2019-07-04 11:14 一个人、一座城 阅读(1298) 评论(0) 推荐(0)