随笔分类 -  hive优化

摘要:如果不指定MapJoin或者不符合MapJoin的条件,那么Hive解析器会将Join操作转换成Common Join,即:在Reduce阶段完成join。容易发生数据倾斜。可以用MapJoin把小表全部加载到内存在map端进行join,避免reducer处理 开启MapJoin参数设置 设置自动选 阅读全文
posted @ 2021-11-21 11:39 HANIEEE 阅读(319) 评论(0) 推荐(0)
摘要:#!/usr/bin/env python3from HiveTask import HiveTaskimport osimport syssys.path.append(os.getenv('HIVE_TASK')) ht = HiveTask() data_day_str = sys.argv[ 阅读全文
posted @ 2021-11-21 11:31 HANIEEE 阅读(212) 评论(0) 推荐(0)
摘要:hive.exec.parallel可以控制一个sql中多个可并行执行的job的运行方式.当hive.exec.parallel为true的时候,同一个sql中可以并行执行的job会并发的执行. 而参数hive.exec.parallel.thread.number就是控制对于同一个sql来说同时可 阅读全文
posted @ 2021-11-21 11:27 HANIEEE 阅读(410) 评论(1) 推荐(0)