摘要: 1.概念 反压(backpressure)是流式计算中十分常见的问题。反压意味着数据管道中某个节点成为瓶颈,处理速率跟不上上游发送数据的速率,而需要对上游进行限速。由于实时计算应用通常使用消息队列来进行生产端和消费端的解耦,消费端数据源是 pull-based 的,所以反压通常是从某个节点传导至数据 阅读全文
posted @ 2021-11-23 17:12 民宿 阅读(1723) 评论(0) 推荐(1)
摘要: 1.场景 如果某个key下记录数远超其他key,在join或group的时候可能会导致某个reduce任务特别慢。本文分析下join的场景。 SQL如下:查询每个appid打开的次数,需要排除掉作弊的imei。 SELECT appid, count(*) FROM ( SELECT md5imei 阅读全文
posted @ 2021-11-23 16:43 民宿 阅读(657) 评论(0) 推荐(0)
摘要: hive调优涉及到压缩和存储调优,参数调优,sql的调优,数据倾斜调优,小文件问题的调优等。 压缩调优:一般选择orcfile/parquet + snappy方式 存储调优:合理设计表,充分利用分区和分桶建表 参数调优 HQL调优 数据倾斜调优 小文件处理调优 阅读全文
posted @ 2021-11-23 16:07 民宿 阅读(49) 评论(0) 推荐(0)
摘要: 1.数据倾斜分哪几类以及如何优化? 开发人员首先要确认几点: 需要计算的指标真的需要从数据仓库的公共明细层来自行汇总吗?数据团队开发的公共汇总层是否可以满足其要求了? 真的需要扫描这么多分区吗?能扫描一周的就不扫描一年的。 尽量不要使用select * from table这样的词语,能指定哪一列就 阅读全文
posted @ 2021-11-23 16:01 民宿 阅读(513) 评论(0) 推荐(0)
摘要: 1.小文件产生 使用hive过程中经常会遇到小文件问题: 在执行插入数据操作过程中,可能会产生小文件(map输入); map-only作业,可能会产生小文件(map输出); map-reduce作业,每个reduce输出一个文件,可能产生小文件(reduce输出)。 2.小文件影响 hdfs存储:存 阅读全文
posted @ 2021-11-23 14:45 民宿 阅读(1024) 评论(0) 推荐(0)
摘要: 1.ArrayList基本原理以及优缺点 1.1ArrayList基本原理 一句话讲,在JDK中,ArrayList底层基于一个Object[]数组来维护数据。 1.2ArrayList优缺点 缺点: 容量受限时,需要进行数组扩容,进行元素拷贝会影响性能 频繁删除和往中间插入元素时,产生元素挪动,也 阅读全文
posted @ 2021-11-23 11:45 民宿 阅读(136) 评论(0) 推荐(1)
摘要: 常见的图标含义 Icon Description Class Abstract class Groovy class Annotation Enumeration Exception Final Java class Interface Java class that contains declar 阅读全文
posted @ 2021-11-23 10:43 民宿 阅读(1569) 评论(0) 推荐(0)
摘要: 1.冒泡排序详解 冒泡排序(英语:Bubble Sort)又称为泡式排序,是一种简单的排序算法。它重复地走访过要排序的数列,一次比较两个元素,如果它们的顺序错误就把它们交换过来。走访数列的工作是重复地进行直到没有再需要交换,也就是说该数列已经排序完成。这个算法的名字由来是因为越小的元素会经由交换慢慢 阅读全文
posted @ 2021-11-23 09:51 民宿 阅读(100) 评论(0) 推荐(0)