摘要:
《Spark最佳实战 陈欢》写的这本书,关于此知识点,非常好,在94页。 hive里的扩展接口,主要包括CLI(控制命令行接口)、Beeline和JDBC等方式访问Hive。 CLI和Beeline都是交互式用户接口,并且功能相似,但是语法和实现不同。 JDBC是一种类似于编程访问关系型数据库的编程 阅读全文
posted @ 2016-11-26 22:59
大数据和AI躺过的坑
阅读(2961)
评论(0)
推荐(0)
摘要:
Hive的操作与传统关系型数据库SQL操作十分类似。 Hive主要支持以下几类操作: DDL 1、DDL:数据定义语句,包括CREATE、ALTER、SHOW、DESCRIBE、DROP等。 详细点,就是 Hive支持大量SQL数据定义语言(Data Definition Language,DDL) 阅读全文
posted @ 2016-11-26 22:45
大数据和AI躺过的坑
阅读(2582)
评论(0)
推荐(0)
摘要:
在一些特定的业务场景下,使用hive默认的配置对数据进行分析,虽然默认的配置能够实现业务需求,但是分析效率可能会很低。 Hive有针对性地对不同的查询进行了优化。在Hive里可以通过修改配置的方式进行优化。 以下,几种方式调优的属性。 1、列裁剪 在通过Hive读取数据的时候,并不是所有的需求都要获 阅读全文
posted @ 2016-11-26 22:05
大数据和AI躺过的坑
阅读(2290)
评论(0)
推荐(0)
摘要:
Hive支持索引,但是Hive的索引与关系型数据库中的索引并不相同,比如,Hive不支持主键或者外键。 Hive索引可以建立在表中的某些列上,以提升一些操作的效率,例如减少MapReduce任务中需要读取的数据块的数量。 在可以预见到分区数据非常庞大的情况下,索引常常是优于分区的。 博主我推荐各位博 阅读全文
posted @ 2016-11-26 21:35
大数据和AI躺过的坑
阅读(33055)
评论(0)
推荐(4)
摘要:
不多说,直接上干货! 可以先,从MySQL里的视图概念理解入手 视图是由从数据库的基本表中选取出来的数据组成的逻辑窗口,与基本表不同,它是一个虚表。在数据库中,存放的只是视图的定义,而不存放视图包含的数据项,这些项目仍然存放在原来的基本表结构中。 视图可以被定义为多个表的连接,也可以被定义为只有部分 阅读全文
posted @ 2016-11-26 21:05
大数据和AI躺过的坑
阅读(21854)
评论(0)
推荐(1)
摘要:
不多说,直接上干货! Hive还可以把表或分区,组织成桶。将表或分区组织成桶有以下几个目的: 第一个目的是为看取样更高效,因为在处理大规模的数据集时,在开发、测试阶段将所有的数据全部处理一遍可能不太现实,这时取样就必不可少。 第二个目的是为了获得更好的查询处理效率。 桶为了表提供了额外的结构,Hiv 阅读全文
posted @ 2016-11-26 20:27
大数据和AI躺过的坑
阅读(9038)
评论(0)
推荐(0)
摘要:
由客户端提交的HiveQL语句将最终被转换为一个或多个MapReduce任务并提交由Hadoop执行。不包含聚合和连接的简单SELECT语句可以使用一个单独的只包含Map阶段的任务实现。使用GROUP BY子句的聚合可以使用一个独立的MapReduce任务实现。包含大量多表连接的复杂查询需要依靠多个 阅读全文
posted @ 2016-11-26 20:03
大数据和AI躺过的坑
阅读(649)
评论(0)
推荐(0)
摘要:
为了对表进行合理的管理以及提高查询效率,Hive可以将表组织成“分区”。 分区是表的部分列的集合,可以为频繁使用的数据建立分区,这样查找分区中的数据时就不需要扫描全表,这对于提高查找效率很有帮助。 分区是一种根据“分区列”(partition column)的值对表进行粗略划分的机制。Hive中的每 阅读全文
posted @ 2016-11-26 19:49
大数据和AI躺过的坑
阅读(8987)
评论(0)
推荐(0)
摘要:
hive里的索引是什么? 索引是标准的数据库技术,hive 0.7版本之后支持索引。Hive提供有限的索引功能,这不像传统的关系型数据库那样有“键(key)”的概念,用户可以在某些列上创建索引来加速某些操作,给一个表创建的索引数据被保存在另外的表中。 Hive的索引功能现在还相对较晚,提供的选项还较 阅读全文
posted @ 2016-11-26 14:12
大数据和AI躺过的坑
阅读(1261)
评论(0)
推荐(0)
摘要:
Hive文件存储格式包括以下几类: 1、TEXTFILE 2、SEQUENCEFILE 3、RCFILE 4、ORCFILE 其中TEXTFILE为默认格式,建表时不指定默认为这个格式,导入数据时会直接把数据文件拷贝到hdfs上不进行处理。 SEQUENCEFILE,RCFILE,ORCFILE格式 阅读全文
posted @ 2016-11-26 11:03
大数据和AI躺过的坑
阅读(7061)
评论(0)
推荐(0)

浙公网安备 33010602011771号