Hive - 随笔分类 - 大数据学习与分享

摘要：在数据仓库建设中，元数据管理是非常重要的环节之一。根据Kimball的数据仓库理论，可以将元数据分为这三类阅读全文

posted @ 2021-04-06 11:19 大数据学习与分享阅读(1623) 评论(0) 推荐(0)

摘要：在利用数据仓库进行数据处理时，通常有这样一个业务场景，为一个Hive表新增一列自增字段（比如阅读全文

posted @ 2021-02-26 17:49 大数据学习与分享阅读(1148) 评论(0) 推荐(0)

摘要：Apache Hive作为处理大数据量的大数据领域数据建设核心工具，数据量往往不是影响Hive执行效率的核心因素，数据倾斜、job数分配的不合理、磁盘或网络I/O过高、MapReduce配置的不合理等等才是影响Hive性能的关键阅读全文

posted @ 2021-01-25 13:25 大数据学习与分享阅读(1458) 评论(0) 推荐(0)

摘要：无论你通过哪种方式连接Hive（如Hive Cli、HiveServer2），一个HQL语句都要经过Driver的解析和执行，主要涉及HQL解析、编译、优化器处理、执行器执行四个方面。阅读全文

posted @ 2021-01-18 09:04 大数据学习与分享阅读(1456) 评论(0) 推荐(0)

摘要：在做一些数据的迁移，主要是将一些Hive处理之后的热数据导入到HBase中，但是遇到了一个很奇怪的问题：同样的数据到了HBase中，所占空间竟增长了好几倍！阅读全文

posted @ 2020-12-08 08:59 大数据学习与分享阅读(462) 评论(0) 推荐(0)

摘要：利用Spark往Hive中存储parquet数据，针对一些复杂数据类型如map、array、struct的处理遇到的问题？为了更好的说明导致问题阅读全文

posted @ 2020-12-04 09:08 大数据学习与分享阅读(1549) 评论(0) 推荐(0)

摘要：首先说一下，这里解决的问题应用场景：sparksql处理Hive表数据时，判断加载的是否是分区表，以及分区表的字段有哪些？再进一步限制查询分区表必须指定分区？这里涉及到两种情况阅读全文

posted @ 2020-12-03 08:57 大数据学习与分享阅读(1812) 评论(0) 推荐(1)

Hive Join优化

摘要：Hive Join优化以及Hive Join的几个重要特点，在实际使用时也可以利用下列特点做相应优化阅读全文

posted @ 2020-11-12 09:09 大数据学习与分享阅读(1021) 评论(0) 推荐(0)

摘要：Apache Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供一种HQL语言进行查询，具有扩展性好、延展性好、高容错等特点，多应用于离线数仓建设阅读全文

posted @ 2020-11-09 09:24 大数据学习与分享阅读(520) 评论(0) 推荐(0)

随笔分类 - Hive