随笔分类 -  hive

摘要:Parquet格式文件读写 依赖工具parquet-tools: parquet-tools-1.6.0rc3-SNAPSHOT.jar 查看结构: java -jar parquet-tools-1.6.0rc3-SNAPSHOT.jar schema -d pane-0-00000-of-000 阅读全文
posted @ 2024-01-09 08:35 粒子先生 阅读(857) 评论(0) 推荐(0)
摘要:结论: Text File,Parquet ,ORC Files结合使用,优先使用前两种,对存储及查询性能有极高要求时使用ORC。 存储格式 使用场景 Text File 数据直观,便于查看和编辑,数据量较小的维表可以使用. Parquet 支持深度嵌套,可用于多种数据处理框架(Hive/Spark 阅读全文
posted @ 2024-01-08 17:07 粒子先生 阅读(164) 评论(0) 推荐(0)
摘要:概念简介 外部表:删除表时,外部表只删除元数据,不删除数据。适用于数据源被多处使用的场景,便于数据共享。 内部表:删除表时,内部表的元数据和数据会被一起删除。适用于不需要共享的原始数据或中间数据。 分区表:数据较多,为提高计算速度时使用。 内部表&外部表写入流程图 具体流程Demo 以外部表为例: 阅读全文
posted @ 2024-01-08 17:01 粒子先生 阅读(203) 评论(0) 推荐(0)
摘要:建表语句,支持嵌套 CREATE TABLE parquet_test ( id int, str string, mp MAP<STRING,STRING>, lst ARRAY<STRING>, strct STRUCT<A:STRING,B:STRING>) PARTITIONED BY (p 阅读全文
posted @ 2024-01-08 16:55 粒子先生 阅读(130) 评论(0) 推荐(0)
摘要:数据库分区的主要目的是为了在特定的SQL操作中减少数据读写的总量以缩减响应时间,主要包括两种分区形式:水平分区与垂直分区。水平分区是对表进行行分区。而垂直分区是对列进行分区,一般是通过对表的垂直划分来减少目标表的宽度,常用的是水平分区. 1. hive建立分区表 create external ta 阅读全文
posted @ 2024-01-08 16:53 粒子先生 阅读(582) 评论(0) 推荐(0)
摘要:优缺点: 1.JsonSerDe对json数据格式有严格要求,创建的表结果必须与json结构能对应上,否则会报错。 配置 org.openx.data.jsonserde.JsonSerDe 能解决格式异常报错导致整个任务终止的问题。 必须定义好详细字段嵌套的规则类型,不适合提取ODS原文。 2.g 阅读全文
posted @ 2024-01-08 16:48 粒子先生 阅读(537) 评论(0) 推荐(0)
摘要:建表 CREATE TABLE IF NOT EXISTS default.array_test( id String COMMENT 'id', name Array<String> COMMENT '名称' ) COMMENT 'array测试' ROW FORMAT DELIMITED FIE 阅读全文
posted @ 2024-01-08 16:45 粒子先生 阅读(70) 评论(0) 推荐(0)
摘要:EXPORT 命令导出数据表或分区,与元数据一起输出到指定位置。又可以从这个输出位置移动到不同的Hadoop 或Hive 实例中,并且使用IMPORT 命令导入。 当导出一个分区表时,原始数据可能位于不同的HDFS位置,同时还支持导出/导入分区的子集。 导出的元数据存储在目标目录中,数据文件则存储在 阅读全文
posted @ 2017-08-17 17:34 粒子先生 阅读(304) 评论(0) 推荐(0)
摘要:实例: 建立外部表: CREATE EXTERNAL TABLE `trojan_controller`( `key` string COMMENT 'key', `src` string COMMENT '', `src_type` string COMMENT '', `e_detail_typ 阅读全文
posted @ 2017-08-17 17:07 粒子先生 阅读(1422) 评论(0) 推荐(0)
摘要:简介: Hive 是一个基于 Hadoop 文件系统之上的数据仓库架构。它为数据仓库的管理提供了许多功能:数据 ETL (抽取、转换和加载)工具、数据存储管理和大型数据集的查询和分析能力。同时 Hive 还定义了类 SQL的语言 -- Hive QL. Hive QL 允许用户进行和 SQL 相似的 阅读全文
posted @ 2017-08-17 16:22 粒子先生 阅读(296) 评论(0) 推荐(0)