hive表新增字段/修改字段+修改字段时字段顺序的问题

hive表新增字段/修改字段+修改字段时字段顺序的问题

分区字段永远在所有字段的最后面

hive表操作

  1. 修改表字段的数据类型或者修改表字段名字
#如果表是外部表,需要先修改为内部表
alter table 数据库名.表名 set tblproperties('EXTERNAL' = 'FALSE');
 
ALTER TABLE 数据库名.表名 CHANGE COLUMN 字段名 新的字段名(如果不变就保持原字段) 字段类型(若不变就采用原来的字段) COMMENT '新的字段备注';
 
alter table 数据库名.表名 set tblproperties('EXTERNAL' = 'TRUE');
  1. 新增表字段

    新增的字段会按新增顺序跟在原来字段的后面,除分区字段(分区字段永远在所有字段的最后面

#如果是外部表,需要先修改为内部表
alter table 数据库名.表名 set tblproperties('EXTERNAL' = 'FALSE');
-- 新增列
alter table 数据库名.表名 add columns(log_id string COMMENT '数据源请求唯一键');
 
alter table 数据库名.表名 set tblproperties('EXTERNAL' = 'TRUE');

遇到问题

  • 修改或者新增字段之后,数据无法保存进去?

博客 https://www.cnblogs.com/zhangqian27/p/12654067.html

原因:hive 1.1.0中表的元数据和分区的元数据是分开管理的,也就是说分区的元数据在分区生成的时候就会保存下来,依据是表的元数据。当我们进行修改字段和新增字段的时候,只是修改了表的元数据,而历史的分区云数据信息并没有改变。当我们查历史分区

的数据的时候,因为表的元数据和分区的元数据不一致了,导致查出的数据为null. 和HDFS无关。

查表的元数据和分区的元数据:

desc 表名;
 
desc 表名 partition(dt='xxxxx')

解决方案:

a. 新增或修改字段,且需要重新跑数据。删除分区的元数据,重新跑对应分区的数据

alter table 表名 drop partition (dt >= '20201001')

b. 只是修改字段,不需要重新跑数据, 在修改时直接指定分区

alter table 表名 partition(dt='20201208') CHANGE COLUMN type_of_charge type_of_charge string COMMENT '计费方式';

c. hive版本是1.1.0之后的可以使用 cascade(级联), 可以修改所有的元数据。

alter table 表名 add columns(log_id string COMMENT 'xxxxxx') cascade;
 
alter table 表名 partition(dt='20201208') CHANGE COLUMN type_of_charge type_of_charge string COMMENT 'xxxxxx' cascade;
posted @ 2022-07-14 17:21  赤兔胭脂小吕布  阅读(2008)  评论(0)    收藏  举报