hql内置函数详解与使用

函数	类型	说明	示例	结果
`if(cond, true_val, false_val)`	UDF	条件判断	`SELECT if(1>0, 'Yes', 'No');`	Yes
`nvl(value, default)`	UDF	替换NULL值	`SELECT nvl(NULL, 'Unknown');`	Unknown
`coalesce(v1, v2, ...)`	UDF	返回第一个非NULL值	`SELECT coalesce(NULL, 'Hive', 'Spark');`	Hive
`case when ... then ... end`	UDF	多条件分支	`SELECT CASE WHEN salary>5000 THEN 'High' ELSE 'Low' END;`	依数据而定

函数	类型	说明	示例	结果
`size(map/array)`	UDF	集合元素数量	`SELECT size(array('a','b'));`	2
`map_keys(map)`	UDF	返回Map的所有key	`SELECT map_keys(map('k1',1,'k2',2));`	["k1","k2"]
`array_contains(arr, val)`	UDF	判断数组是否包含某值	`SELECT array_contains(array(1,2,3), 2);`	true
`sort_array(arr)`	UDF	数组排序	`SELECT sort_array(array(3,1,2));`	[1,2,3]
`collect_set(col)`	UDAF	聚合时去重（返回Array）	`SELECT collect_set(name) FROM student;`	["Amy","Bob"]
`collect_list(col)`	UDAF	聚合时不去重（返回Array）	`SELECT collect_list(score) FROM exam;`	[90,85,90]

函数	类型	说明	示例	结果
`cast(expr AS type)`	UDF	强制类型转换	`SELECT cast('123' AS int);`	123
`binary(str)`	UDF	字符串转二进制	`SELECT binary('Hive');`	二进制流

函数	类型	说明	示例	结果
`mask_hash(str)`	UDF	生成字符串的哈希值（SHA-256）	`SELECT mask_hash('secret');`	十六进制哈希串
`md5(str)`	UDF	计算MD5值	`SELECT md5('data');`	32位哈希串

场景：将数组拆分为多行并保留原表其他字段
示例：拆分电影分类数组

SELECT movie, category_name 
FROM movie_info 
LATERAL VIEW explode(split(category, '/')) tmp AS category_name;

输入表 movie_info：

查看所有函数：

SHOW FUNCTIONS;  -- 列出全部内置函数
DESCRIBE FUNCTION EXTENDED upper;  -- 查看函数详细用法（含示例）

函数分类原则：
- UDF：单行输入 → 单行输出（如upper()）
- UDAF：多行输入 → 单行输出（如sum()）
- UDTF：单行输入 → 多行输出（如explode()）
NULL处理：优先使用nvl()或coalesce()避免计算中断。
永久函数：通过CREATE FUNCTION ... USING JAR注册自定义函数。

完整函数列表参考Hive官方文档。实际使用中，结合EXPLAIN关键字可分析函数执行逻辑。

posted @ 2025-05-30 11:53 zz_bigdata 阅读(63) 评论(0) 收藏举报

刷新页面返回顶部

cwz02