dairui130

导航

hive引擎的选择:tez和spark

背景

mr引擎在hive 2中将被弃用。官方推荐使用tez或spark等引擎。

选择

tez

使用有向无环图。内存式计算。

spark

可以同时作为批式和流式的处理引擎,减少学习成本。

问题&&不便

tez:

在hive sql中使用了union 或 join操作

tez会将任务切分,每个小任务,创建一个文件文件夹,如下:

这就会造成一个非常严重的问题,假如这张表的下文,使用这张表没有用tez,而是使用spark或者mr,

这两种引擎是不会遍历子文件夹下的内容的。查出来的数据为0。而我们很难约束,其他人使用同一种引擎,

所以tez在使用中抛弃。我们最中选择了spark引擎。

 

posted on 2019-05-30 12:10  dairui130  阅读(2742)  评论(0编辑  收藏  举报