Hive数据仓库 - 随笔分类 - L先生AI课堂

Hive篇---Hive使用优化

摘要：一.前述本节主要描述Hive的优化使用，Hive的优化着重强调一个把Hive SQL 当做Mapreduce程序去优化二.主要优化点 1.Hive运行方式：本地模式集群模式本地模式开启本地模式：set hive.exec.mode.local.auto=true;注意：hive.exec.mod 阅读全文

posted @ 2018-01-17 00:02 L先生AI课堂阅读(751) 评论(0) 推荐(0)

Hive篇--搭建Hive集群

摘要：一.前述 Hive中搭建分为三中方式 a)内嵌Derby方式 b)Local方式 c)Remote方式三种方式归根到底就是元数据的存储位置不一样。二.具体实现 a)内嵌Derby方式使用derby存储方式时，运行hive会在当前目录生成一个derby文件和一个metastore_db目录。这种阅读全文

posted @ 2018-01-15 20:09 L先生AI课堂阅读(12251) 评论(1) 推荐(0)

Hive篇--相关概念和使用二

摘要：一.基本概念 Hive分桶： 1.概念分桶表是对列值取哈希值的方式，将不同数据放到不同文件中存储。对于hive中每一个表、分区都可以进一步进行分桶。（可以对列，也可以对表进行分桶）由列的哈希值除以桶的个数来决定每条数据划分在哪个桶中。 2.设置 set hive.enforce.bucketing 阅读全文

posted @ 2018-01-14 21:53 L先生AI课堂阅读(388) 评论(0) 推荐(0)

Hive篇--相关概念整理一

摘要：一.前述 hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十阅读全文

posted @ 2018-01-11 01:09 L先生AI课堂阅读(422) 评论(0) 推荐(0)

L先生AI课堂

联想集团算法工程师一枚！ Get busy living, or get busy dying!!

随笔分类 - Hive数据仓库

公告