随笔分类 -  Hive

The Apache Hive ™ data warehouse software facilitates reading, writing, and managing large datasets residing in distributed storage using SQL
摘要:在数据仓库建设中,元数据管理是非常重要的环节之一。根据Kimball的数据仓库理论,可以将元数据分为这三类 阅读全文
posted @ 2021-04-06 11:19 大数据学习与分享 阅读(1611) 评论(0) 推荐(0)
摘要:在利用数据仓库进行数据处理时,通常有这样一个业务场景,为一个Hive表新增一列自增字段(比如 阅读全文
posted @ 2021-02-26 17:49 大数据学习与分享 阅读(1120) 评论(0) 推荐(0)
摘要:Apache Hive作为处理大数据量的大数据领域数据建设核心工具,数据量往往不是影响Hive执行效率的核心因素,数据倾斜、job数分配的不合理、磁盘或网络I/O过高、MapReduce配置的不合理等等才是影响Hive性能的关键 阅读全文
posted @ 2021-01-25 13:25 大数据学习与分享 阅读(1439) 评论(0) 推荐(0)
摘要:无论你通过哪种方式连接Hive(如Hive Cli、HiveServer2),一个HQL语句都要经过Driver的解析和执行,主要涉及HQL解析、编译、优化器处理、执行器执行四个方面。 阅读全文
posted @ 2021-01-18 09:04 大数据学习与分享 阅读(1452) 评论(0) 推荐(0)
摘要:在做一些数据的迁移,主要是将一些Hive处理之后的热数据导入到HBase中,但是遇到了一个很奇怪的问题:同样的数据到了HBase中,所占空间竟增长了好几倍! 阅读全文
posted @ 2020-12-08 08:59 大数据学习与分享 阅读(455) 评论(0) 推荐(0)
摘要:利用Spark往Hive中存储parquet数据,针对一些复杂数据类型如map、array、struct的处理遇到的问题?为了更好的说明导致问题 阅读全文
posted @ 2020-12-04 09:08 大数据学习与分享 阅读(1526) 评论(0) 推荐(0)
摘要:首先说一下,这里解决的问题应用场景:sparksql处理Hive表数据时,判断加载的是否是分区表,以及分区表的字段有哪些?再进一步限制查询分区表必须指定分区?这里涉及到两种情况 阅读全文
posted @ 2020-12-03 08:57 大数据学习与分享 阅读(1795) 评论(0) 推荐(1)
摘要:Hive Join优化以及Hive Join的几个重要特点,在实际使用时也可以利用下列特点做相应优化 阅读全文
posted @ 2020-11-12 09:09 大数据学习与分享 阅读(997) 评论(0) 推荐(0)
摘要:Apache Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供一种HQL语言进行查询,具有扩展性好、延展性好、高容错等特点,多应用于离线数仓建设 阅读全文
posted @ 2020-11-09 09:24 大数据学习与分享 阅读(505) 评论(0) 推荐(0)