摘要:
hive调优涉及到压缩和存储调优,参数调优,sql的调优,数据倾斜调优,小文件问题的调优等。 压缩调优:一般选择orcfile/parquet + snappy方式 存储调优:合理设计表,充分利用分区和分桶建表 参数调优 HQL调优 数据倾斜调优 小文件处理调优 阅读全文
posted @ 2021-11-23 16:07
民宿
阅读(49)
评论(0)
推荐(0)
摘要:
1.数据倾斜分哪几类以及如何优化? 开发人员首先要确认几点: 需要计算的指标真的需要从数据仓库的公共明细层来自行汇总吗?数据团队开发的公共汇总层是否可以满足其要求了? 真的需要扫描这么多分区吗?能扫描一周的就不扫描一年的。 尽量不要使用select * from table这样的词语,能指定哪一列就 阅读全文
posted @ 2021-11-23 16:01
民宿
阅读(513)
评论(0)
推荐(0)
摘要:
1.小文件产生 使用hive过程中经常会遇到小文件问题: 在执行插入数据操作过程中,可能会产生小文件(map输入); map-only作业,可能会产生小文件(map输出); map-reduce作业,每个reduce输出一个文件,可能产生小文件(reduce输出)。 2.小文件影响 hdfs存储:存 阅读全文
posted @ 2021-11-23 14:45
民宿
阅读(1024)
评论(0)
推荐(0)
摘要:
1.ArrayList基本原理以及优缺点 1.1ArrayList基本原理 一句话讲,在JDK中,ArrayList底层基于一个Object[]数组来维护数据。 1.2ArrayList优缺点 缺点: 容量受限时,需要进行数组扩容,进行元素拷贝会影响性能 频繁删除和往中间插入元素时,产生元素挪动,也 阅读全文
posted @ 2021-11-23 11:45
民宿
阅读(136)
评论(0)
推荐(1)
摘要:
常见的图标含义 Icon Description Class Abstract class Groovy class Annotation Enumeration Exception Final Java class Interface Java class that contains declar 阅读全文
posted @ 2021-11-23 10:43
民宿
阅读(1569)
评论(0)
推荐(0)
摘要:
1.冒泡排序详解 冒泡排序(英语:Bubble Sort)又称为泡式排序,是一种简单的排序算法。它重复地走访过要排序的数列,一次比较两个元素,如果它们的顺序错误就把它们交换过来。走访数列的工作是重复地进行直到没有再需要交换,也就是说该数列已经排序完成。这个算法的名字由来是因为越小的元素会经由交换慢慢 阅读全文
posted @ 2021-11-23 09:51
民宿
阅读(100)
评论(0)
推荐(0)

浙公网安备 33010602011771号