随笔分类 - hive
摘要:1 本地模式 0.7版本后Hive开始支持任务执行选择本地模式(local mode)。 大多数的Hadoop job是需要hadoop提供的完整的可扩展性来处理大数据的。不过,有时hive的输入数据量是非常小的。在这种情况下,为查询出发执行任务的时间消耗可能会比实际job的执行时间要多的多。对于大
阅读全文
摘要:1 什么是分桶 上一篇说到了分区,分区中的数据可以被进一步拆分成桶,bucket。不同于分区对列直接进行拆分,桶往往使用列的哈希值进行数据采样。在分区数量过于庞大以至于可能导致文件系统崩溃时,建议使用桶。 hive使用对分桶所用的值进行hash,并用hash结果除以桶的个数做取余运算的方式来分桶,保
阅读全文
摘要:1 基本概念 1.1 什么是分区 Hive查询中一般会扫描整个表内容,会消耗很多时间。有时候只需要查询表中的一部分数据,因此建表时引入了partition(分区)概念。 表中的一个 Partition 对应于表下的一个目录,所有的 Partition 的数据都存储在对应的目录中,因此,使用分区,很容
阅读全文
摘要:1 Hive中的数据定义 1.1 存储与创建 Hive会为每个数据库创建一个目录。数据库中的表以子目录的形式存储。 有一个例外是default中的表,因为这个库本身没有目录。 数据库的顶级目录是hive.metastore.warehuse.dir所指定的目录。 假设用户使用的是默认配置/user/
阅读全文

浙公网安备 33010602011771号