随笔分类 - Streams
1
摘要:Savepoint 本文翻译自文档Streaming Guide / Savepoints 使用DataStream API编写的程序可以从一个savepoint处恢复执行。savepoint可以同时更新你的程序和Flink集群而不丢失任何状态。该文档包括了从触发、存储以及销毁(dispose)sa
阅读全文
摘要:State Backends 本文翻译自文档Streaming Guide / Fault Tolerance / StateBackend 使用Data Stream API编写的程序通常以多种形式维护状态: · 窗口将收集element或在它被触发后聚合element · Transformat
阅读全文
摘要:Working with State 本文翻译自Streaming Guide/ Fault Tolerance / Working with State Flink中所有transformation可能都看上去像是方法(在functional processing术语中),但事实上它们都是有状态的
阅读全文
摘要:容错(Fault Tolerance) 本文翻译自StreamGuide的Fault Tolerance Flink的容错机制会在错误出现时恢复程序并继续执行,这些容错机制包括设备硬件失效、网络失效、临时程序失效等等。 一、流容错 Flink使用检查点机制来在流Job失效后对其进行恢复。该检查点机制
阅读全文
摘要:窗口(Window) 本文翻译自文档Windows Flink使用窗口的概念,根据element的时间戳或者其他指标,将可能无限的DataStream分割为有限的数据切片(slice)。我们在处理无限数据流以及进行聚合element的transformation时需要此种窗口分割。 注意:我们在此文
阅读全文
摘要:本文翻译自Pre-defined Timestamp Extractors / Watermark Emitter 正如timestamps and watermark handling中所述,Flink提供了抽象类来让开发者赋值自己的时间戳并发送他们自己的Watermark。更具体来说,开发者需要
阅读全文
摘要:时间戳和Watermark生成 本文翻译自Generating Timestamp / Watermarks 本文是Flink在使用事件时间(Event Time)时相关内容,有关事件时间、处理时间和提取时间的介绍,请见event time introduction。 流程序需要设置时间特征为Eve
阅读全文
摘要:Event Time 本文翻译自DataStream API Docs v1.2的Event Time 一、事件时间 / 处理时间 / 提取时间 Flink支持流程序不同的time概念。 · Processing time:处理时间指执行对应Operation的设备的系统时间。 当一个流程序以处理时
阅读全文
摘要:DataStream API编程指导 文档翻译自Flink DataStream API Programming Guide Flink中的DataStream程序是实现在数据流上的transformation(如filtering,updating state, defining windows,
阅读全文
摘要:基本API概念(Basic API Concepts)—— For Java 翻译自Basic API Concepts Flink程序是在分布式数据集上(collection)实现Transformation(如filtering, mapping, updating state, joining
阅读全文
摘要:本文翻译自Contributing Code Apache Flink是由自愿的代码贡献者维护、优化及扩展的。Apache Flink社区鼓励任何人贡献源代码。为了使得代码贡献者及复查者之便利,以及保存高质量的代码基础,我们遵循着一个贡献代码的过程,该过程将在本文档中详细描述。 本文包括有关向Fli
阅读全文
摘要:背压(backpressure)监控 本文翻译自Back Pressure Monitoring Flink的web接口提供了监控运行job的背压行为的功能 一、背压(back pressure) 如果你看到了一个任务的back pressure警告(如过高),则意味着该任务产生数据的速度要高于下游
阅读全文
摘要:如何添加一个新的Operator 翻译自How to add a new Operator Java API中可以通过多种途径添加Operator 1. 在DataSet上,以已存在的Operator为基础,组合或具现化(speciallzation)而形成新的Operator 2. 设计新的自定义
阅读全文
摘要:该文档翻译自Jobs and Scheduling 该文档简单描述了Flink是如何调度Job的,以及如何在JobManager上表现并跟踪Job状态。 一、调度 Flink通过任务槽(Task Slot)定义执行资源。每个TaskManager都有一或多个任务槽,每个任务槽都可以运行一个流水线并行
阅读全文
摘要:类型抽取和序列化 本文翻译自Type Extraction and Serialization Flink处理类型的方式比较特殊,包括它自己的类型描述,一般类型抽取和类型序列化框架。该文档描述这些概念并解释其机理。 Java API和Scala API处理类型信息的方式有根本性的区别,所以本文描述的
阅读全文
摘要:Flink一般架构和处理模型 本文翻译自General Architecture and Process Model 一、处理过程 当Flink系统启动时,首先启动JobManager和一至多个TaskManager。JobManager负责协调Flink系统,TaskManager则是执行并行程序
阅读全文
摘要:数据流容错机制 该文档翻译自Data Streaming Fault Tolerance,文档描述flink在流式数据流图上的容错机制。 一、介绍 flink提供了可以一致地恢复数据流应用的状态的容错机制,该机制保证即使在错误发生后,反射回数据流记录的程序的状态操作最终仅执行一次。值得注意的是,该保
阅读全文
摘要:Flink基础概念 本文描述Flink的基础概念,翻译自https://ci.apache.org/projects/flink/flink-docs-release-1.0/concepts/concepts.html 一、程序(Progrram)和数据流(Dataflows) Flink程序的构
阅读全文
摘要:Defining build optionsYou can change the build options of the internal builder for building an SPL application using the InfoSphere® Streams Studio.Ab...
阅读全文
摘要:You can use the SPL Streams Debugger in InfoSphere® Streams Studio to help you debug your SPL applications.首先,需要额外软件xterm,通过 sudo yum install xterm来安装...
阅读全文
1

浙公网安备 33010602011771号