Hive常用的数据类型概述

　　　　　　　　　　　　　　Hive常用的数据类型概述

　　　　　　　　　　　　　　　　　　　　　　　　　　　作者：尹正杰

一.基本数据类型

Hive数据类型	对应Java数据类型	长度(数据取值范围)	备注
TINYINT	byte	1 byte有符号(即最高位为"符号位"，下同)整数(取值范围为：-128~127)
SMALINT	short	2 byte有符号整数(取值范围为: -32768~32767)
INT	int	4 byte有符号整数(取值范围为: -2147483648~2147483647)
BIGINT	long	8 byte有符号整数(取值范围为: -9223372036854775808~9223372036854775807)
BOOLEAN	boolean	布尔类型(取值范围：true，false)
FLOAT	float	4 byte的单精度浮点数(1位符号位，8位指数，23位小数)	其中小数部分(2 ** 23)对应最大的十进制数字为:8388608，这是一个7位十进制数字。可惜呀，这个数字要比9999999小，因此为了百分百保证精度，我们通常说float精度可以保证十进制的6位运算。
DOUBLE	double	8 byte的双精度浮点数(1位符号位，11位指数，52位小数)	其中小数部分(2 ** 52)对应最大的十进制数字为：4503599627370496，这是一个16位十进制数字。同理，这个数字要比9999999999999999小，因此为了百分百保证精度，我们通常说double精度可以保证十进制的15位运算。
STRING	string	可以使用单引号('')或者双引号("")定义字符串，他是一个字符集合。	当然，关于字符集合自然会设计到字符编码问题哟~
TIMESTAMP		时间类型
BINARY		字节数组

　　温馨提示: 
　　　　对于Hive的String类型相当于MySQL数据库的varchar类型，该类型是一个可变的字符串。不过它不能声明其中最多能存储多少个字符，但理论上它可以存储2GB的字符数。
　　　　在Java编程中，如果double类型都无法表示的精度，可以使用java中的BigDecimal类型，它能支持跟高精度的运算哟~

二.集合数据类型

　　Hive有三种复杂数据类型ARRAY、MAP和STRUCT。如下所示:
　　　　ARRAY：
　　　　　　数组是一组具有相同类型和名称的变量的集合。这些变量称为数组的元素，每个数组元素都有一个编号，编号从零开始。与Java中的Array类似。
　　　　MAP： 
　　　　　　MAP是一组键-值对元组集合，使用数组表示法可以访问数据。与Java中的Map类似。
　　　　STRUCT：
　　　　　　和c语言中的struct类似，都可以通过“点”符号访问元素内容。

　　接下来我们来一起看一个案例，来体会一下这三种复杂数据类型。

1>. 假设某表有如下两行，我们用JSON格式来表示其数据结构(注释内容为Hive中的访问格式)。

{
    "name": "曹操",
    "friends": ["荀彧" , "典韦"] ,  //列表Array, 
    "children": {  //键值Map,
        "曹昂": 30,
        "曹丕": 25,
　　　　　"曹彰":22,
　　　　　"曹冲":18

    }
    "address": {  //结构Struct,
        "street": "丞相府" ,
        "city": "许昌" 
    }
},
{
    "name": "刘备",
    "friends": ["诸葛亮" , "庞统"] ,  //列表Array, 
    "children": {  //键值Map,
        "刘禅": 25,
        "刘永": 20,
　　　　　"刘理":15
    }
    "address": {  //结构Struct,
        "street": "武担山",
        "city": "成都" 
    }
},
...

2>.基于上述数据结构，我们在Hive里创建对应的表，并导入数据。

[root@hadoop105.yinzhengjie.com ~]# vim sanguo.txt
[root@hadoop105.yinzhengjie.com ~]# 
[root@hadoop105.yinzhengjie.com ~]# cat sanguo.txt
曹操,荀彧_典韦,曹昂_:30_曹丕:25_曹彰:22_曹冲:18,丞相府_许昌
刘备,诸葛亮_庞统,刘禅:25_刘永:20_刘理:15,武担山_成都
[root@hadoop105.yinzhengjie.com ~]# 


温馨提示:
　　MAP，STRUCT和ARRAY里的元素间关系都可以用同一个字符表示，这里用"_"。

3>.Hive上创建测试表(sanguo)

create table sanguo(
  name string,
  friends array<string>,
  children map<string, int>,
  address struct<street:string, city:string>
)
row format delimited 
  fields terminated by ','
  collection items terminated by '_'
  map keys terminated by ':'
  lines terminated by '\n';



行格式定义(row format delimited)参数含义如下所示:
　　fields terminated by ','
　　　　指定列分隔符。
　　collection items terminated by '_'      
　　　　指定MAP STRUCT 和 ARRAY 的分隔符(数据分割符号)
　　map keys terminated by ':' 
　　　　指定MAP中的key与value的分隔符
　　lines terminated by '\n';                    
　　　　指定行分隔符，若不指定，则默认为"\n"。

4>.导入文本数据到测试表

load data local inpath '/root/sanguo.txt' into table sanguo;

5>.访问三种集合列里的数据，以下分别是ARRAY，MAP，STRUCT的访问方式

select * from sanguo;
select friends[1],children['刘禅'],address.city from sanguo where name="刘备";
select friends[1],children['曹丕'],address.city from sanguo where name="曹操";

三.类型转换

1>.类型转换概述

　　Hive的原子数据类型(其实就是基础数据类型)是可以进行隐式转换的。

　　类似于Java的类型转换，例如某表达式使用INT类型，TINYINT会自动转换为INT类型。

　　但是Hive不会进行反向转化，例如，某表达式使用TINYINT类型，INT不会自动转换为TINYINT类型，它会返回错误，除非使用CAST操作进行强制类型转换。

　　综上所述，隐式类型转换我们称为自动类型转换，它可以从小的范围转换到大的范围。强制类型转换则是从大的类型范围转换为小的类型范围(可能存在数据丢失的风险)。

2>.隐式类型转换规则

　　隐式类型转换规则如下所示：
　　　　(1)任何整数类型都可以隐式地转换为一个范围更广的类型，如TINYINT可以转换成INT，INT可以转换成BIGINT。
　　　　(2)所有整数类型、FLOAT和STRING类型都可以隐式地转换成DOUBLE。
　　　　(3)TINYINT、SMALLINT、INT都可以转换为FLOAT。
　　　　(4)BOOLEAN类型不可以转换为任何其它的类型。

3>.强制类型转换(可以使用CAST操作显示进行数据类型转换)

SELECT "100" + 25;  // 这里会自动发生类型转换，将字符串类型转换成DOUBLE类型。
SELECT CAST("100" AS INT) + 25;  // 这里我们将字符串类型转换为INT类型。 
SELECT CAST("10AF" AS INT);  // 当类型转换失败时会返回NULL。

posted @ 2020-11-14 23:51 JasonYin2020 阅读(4404) 评论(0) 收藏举报

刷新页面返回顶部

Jason Yin

Hive常用的数据类型概述

公告