摘要:
由客户端提交的HiveQL语句将最终被转换为一个或多个MapReduce任务并提交由Hadoop执行。不包含聚合和连接的简单SELECT语句可以使用一个单独的只包含Map阶段的任务实现。使用GROUP BY子句的聚合可以使用一个独立的MapReduce任务实现。包含大量多表连接的复杂查询需要依靠多个 阅读全文
posted @ 2016-11-26 20:03
大数据和AI躺过的坑
阅读(649)
评论(0)
推荐(0)
摘要:
为了对表进行合理的管理以及提高查询效率,Hive可以将表组织成“分区”。 分区是表的部分列的集合,可以为频繁使用的数据建立分区,这样查找分区中的数据时就不需要扫描全表,这对于提高查找效率很有帮助。 分区是一种根据“分区列”(partition column)的值对表进行粗略划分的机制。Hive中的每 阅读全文
posted @ 2016-11-26 19:49
大数据和AI躺过的坑
阅读(8987)
评论(0)
推荐(0)
摘要:
hive里的索引是什么? 索引是标准的数据库技术,hive 0.7版本之后支持索引。Hive提供有限的索引功能,这不像传统的关系型数据库那样有“键(key)”的概念,用户可以在某些列上创建索引来加速某些操作,给一个表创建的索引数据被保存在另外的表中。 Hive的索引功能现在还相对较晚,提供的选项还较 阅读全文
posted @ 2016-11-26 14:12
大数据和AI躺过的坑
阅读(1261)
评论(0)
推荐(0)
摘要:
Hive文件存储格式包括以下几类: 1、TEXTFILE 2、SEQUENCEFILE 3、RCFILE 4、ORCFILE 其中TEXTFILE为默认格式,建表时不指定默认为这个格式,导入数据时会直接把数据文件拷贝到hdfs上不进行处理。 SEQUENCEFILE,RCFILE,ORCFILE格式 阅读全文
posted @ 2016-11-26 11:03
大数据和AI躺过的坑
阅读(7061)
评论(0)
推荐(0)

浙公网安备 33010602011771号