摘要: Hadoop 环境搭建 本文主要介绍了 Hadoop 环境的搭建过程。 阅读全文
posted @ 2022-06-17 16:39 watermark's 阅读(376) 评论(0) 推荐(0)
摘要: Flink 中的事件时间触发器和处理时间触发器 在Flink流处理框架中,事件时间触发器和处理时间触发器是实现精准数据处理与窗口计算的关键组件。本文围绕这两种触发器展开,不仅深入讲解其核心概念与应用场景,更附带详细的源码分析。 首先,对事件时间触发器进行剖析,阐述它如何基于事件自身携带的时间戳来驱动窗口操作,从而应对数据乱序问题,确保计算结果的准确性。接着,探讨处理时间触发器,说明其依据系统时钟触发窗口计算,适用于对实时性要求高、对乱序处理需求低的场景。 在源码分析部分,逐步解读代码逻辑,揭示两种触发器在Flink内部的工作机制。通过本文,读者能全面掌握事件时间触发器和处理时间触发器的原理、应用及源码实现,提升Flink开发与调优能力。 阅读全文
posted @ 2022-04-28 21:12 watermark's 阅读(2894) 评论(0) 推荐(1)
摘要: R 数据可视化: PCA 主成分分析图 主成分分析(Principal Component Analysis,PCA)是一种无监督的数据降维方法,通过主成分分析可以尽可能保留下具备区分性的低维数据特征。主成分分析图能帮助我们直观地感受样本在降维后空间中的分簇和聚合情况,这在一定程度上亦能体现样本在原始空间中的分布情况,这对于只能感知三维空间的人类来说,不失为一种不错的选择。 本文主要介绍了使用 R ggplot2 绘制 PCA 主成分分析图的详细步骤,每个绘图像素都自己掌控的感觉倍儿爽~ 阅读全文
posted @ 2022-04-28 20:31 watermark's 阅读(5508) 评论(0) 推荐(0)
摘要: 《Streaming Systems》第三章: Watermarks 数据的价值在其产生之后,将随着时间的流逝逐渐降低。因此,为了获得最大化的数据价值,尽可能实时、快速地处理新产生的数据就显得尤为重要。实时数据处理将在越来越多的场景中体现出更大的价值所在 —— 实时即未来。 在本章中,我们将详细探讨流处理系统的基石之一:watermark。 具体来说,我们研究了 watermark 是如何在源处创建的,如何在整个管道中传播的。我们探究了更改输出窗口时间戳对 watermark 的影响。最后,我们探讨了流行的流处理系统中 watermark 的实现机制。 在我们了解了 watermark 的工作机制后,接下来我们将继续探讨当使用窗口和触发器进行更复杂查询的时候,watermark 是如何发挥更大作用的。 阅读全文
posted @ 2022-04-28 07:50 watermark's 阅读(466) 评论(0) 推荐(0)
摘要: 《Streaming Systems》第二章: 数据处理中的 What, Where, When, How 本章中,我们首先详细讨论了以下流处理核心概念: 1. 窗口:处理无界数据的有效方式是采用窗口的方式对无界数据进行切分。 2. 触发器:用于定义何时触发计算结果更新动作。 3. 水位线:一种推断数据完整性的理念,对于处理无界数据中的乱序、迟到、缺失等问题非常有效。 4. 累积:当窗口结果需要多次更新时如何修正之前的结果。 其次,我们通过对 what,where,when,how 这 4 个问题的回答,逐步揭开流处理过程的全貌: What:计算什么结果? Where:在哪里计算结果? When:在什么时间计算结果? How:如何修正计算结果? 阅读全文
posted @ 2022-04-26 22:43 watermark's 阅读(560) 评论(0) 推荐(0)
摘要: Kafka Kerberos 安全认证 在当今数据传输与处理的复杂环境中,Kafka 的安全性至关重要,而 Kerberos 安全认证则为 Kafka 提供了强大的安全保障。本文详细记录了 Kafka Kerberos 安全认证的实践过程。不仅给出了完整的源码实现,这些源码经过精心编写与测试,具有很高的参考价值,开发者可以直接借鉴并根据自身需求进行调整。还着重分享了在安装过程中遇到的所有问题及对应的踩坑记录。涵盖了从配置文件的编写错误到环境变量设置的细微差错,每一个问题的解决过程都清晰呈现。通过本文,读者能系统地学习到 Kafka Kerberos 安全认证的实践方法,有效避免在实际操作中走弯路,快速实现安全可靠的数据传输。 阅读全文
posted @ 2022-04-24 21:18 watermark's 阅读(8733) 评论(7) 推荐(0)
摘要: 《Streaming Systems》第一章: Streaming 101 数据的价值在其产生之后,将随着时间的流逝逐渐降低。因此,为了获得最大化的数据价值,尽可能实时、快速地处理新产生的数据就显得尤为重要。实时数据处理将在越来越多的场景中体现出更大的价值所在 —— 实时即未来。 在本章中,我们完成了以下工作: 1. 澄清了一些术语的定义,专注于‘流’的定义,而不是已有流计算系统的实现。 2. 研究了目前 批/流 系统的能力,强调,在功能上,流是批的超集。 3. 提出了如果流系统在功能上要超越批系统,需要具备的两个能力,分别是:正确性和在各时间域处理数据的能力。 4. 强调了事件时间和处理时间的巨大区别。提出了基于这两个时间处理数据的难点。 5. 回顾了主流数据处理系统处理有界和无界数据的方式。 阅读全文
posted @ 2022-04-21 22:44 watermark's 阅读(257) 评论(0) 推荐(0)