hive - 随笔分类 - 强迫疒

Hive入门（四）查询优化

摘要：1 本地模式 0.7版本后Hive开始支持任务执行选择本地模式(local mode)。大多数的Hadoop job是需要hadoop提供的完整的可扩展性来处理大数据的。不过，有时hive的输入数据量是非常小的。在这种情况下，为查询出发执行任务的时间消耗可能会比实际job的执行时间要多的多。对于大阅读全文

posted @ 2017-11-22 23:15 强迫疒阅读(685) 评论(0) 推荐(0)

Hive入门（三）分桶

摘要：1 什么是分桶上一篇说到了分区，分区中的数据可以被进一步拆分成桶，bucket。不同于分区对列直接进行拆分，桶往往使用列的哈希值进行数据采样。在分区数量过于庞大以至于可能导致文件系统崩溃时，建议使用桶。 hive使用对分桶所用的值进行hash，并用hash结果除以桶的个数做取余运算的方式来分桶，保阅读全文

posted @ 2017-11-22 22:34 强迫疒阅读(565) 评论(0) 推荐(0)

Hive入门（二）分区

摘要：1 基本概念 1.1 什么是分区 Hive查询中一般会扫描整个表内容，会消耗很多时间。有时候只需要查询表中的一部分数据，因此建表时引入了partition（分区）概念。表中的一个 Partition 对应于表下的一个目录，所有的 Partition 的数据都存储在对应的目录中，因此，使用分区，很容阅读全文

posted @ 2017-11-16 18:37 强迫疒阅读(306) 评论(0) 推荐(0)

Hive入门（一）

摘要：1 Hive中的数据定义 1.1 存储与创建 Hive会为每个数据库创建一个目录。数据库中的表以子目录的形式存储。有一个例外是default中的表，因为这个库本身没有目录。数据库的顶级目录是hive.metastore.warehuse.dir所指定的目录。假设用户使用的是默认配置/user/ 阅读全文

posted @ 2017-11-15 23:20 强迫疒阅读(276) 评论(0) 推荐(0)

强迫疒

随笔分类 - hive

公告