流处理基础

DataFlow编程概述

  1. DataFlow图

逻辑图和物理图

  1. 数据并行和任务并行
  2. 数据交换策略

转发
广播
基于健值
随机

并行流处理

  1. 延迟和吞吐
  2. 数据流上的操作

数据接入和数据输出
转换操作
滚动聚合
窗口操作
- 滚动窗口
- 滑动窗口
- 会话窗口

时间语义

  1. 流处理场景下一分钟的含义
  2. 处理时间
  3. 事件时间
  4. 水位线
    • 单调递增
    • watermark T表示所有小于等于T的事件都已收到

状态和一致性模型

  1. 面临挑战

状态管理
状态划分
状态恢复

  1. 任务故障
  2. 结果故障

    至多一次
    至少一次
    精确一次
    端到端的精确一次 Flink的connecter

posted @ 2020-02-04 16:08  王晓天  阅读(129)  评论(0编辑  收藏  举报