Flink DataSet API

一.简介

DataSet API,对静态数据进行批处理操作,将静态数据抽象成分布式数据集,用户可以方便地使用Flink提供的各种操作符对分布式数据集进行处理。Flink先将接入数据(如可以通过读取文本或从本地集合)来创建转换成DataSet数据集,并行分布在集群的每个节点上;然后将DataSet数据集进行各种转换操作(map,filter,union,group等)最后通过DataSink操作将结果数据集输出到外部系统。

流程

  • 获得一个执行环境(ExecutionEnvironment)
  • 加载/创建初始数据 (Source)
  • 指定转换算子操作数据(Transformation)
  • 指定存放结果位置(Sink)

二.示例

广播变量

flink 支持广播变量,就是将数据广播到具体taskManager上,数据存储在内存中,这样可以减缓大量的shuffle操作。

def setBroadcast(env: ExecutionEnvironment): 
posted @ 2022-10-20 22:43  Dlimeng  阅读(27)  评论(0)    收藏  举报  来源