Hive项目经验

1.hive的数据传输
Hive 中的 Null 在底层是以“\N”来存储,而 MySQL 中的 Null 在底层就是 Null,为了
保证数据两端的一致性。在导出数据时采用--input-null-string 和--input-null-non-string 两个参
数。导入数据时采用--null-string 和--null-non-string。
 
 
2.Hive集成引擎Tez
Tez 是一个 Hive 的运行引擎,性能优于 MR。为什么优于 MR 呢?看下图。

 

用 Hive 直接编写 MR 程序,假设有四个有依赖关系的 MR 作业,上图中,绿色是 Reduce Task,
云状表示写屏蔽,需要将中间结果持久化写到 HDFS。
Tez 可以将多个有依赖的作业转换为一个作业,这样只需写一次 HDFS,且中间节点较
少,从而大大提升作业的计算性能。
 
 
posted @ 2020-09-13 21:59  小小分析猿  阅读(267)  评论(0编辑  收藏  举报