Flink DataSet API
一.简介
DataSet API,对静态数据进行批处理操作,将静态数据抽象成分布式数据集,用户可以方便地使用Flink提供的各种操作符对分布式数据集进行处理。Flink先将接入数据(如可以通过读取文本或从本地集合)来创建转换成DataSet数据集,并行分布在集群的每个节点上;然后将DataSet数据集进行各种转换操作(map,filter,union,group等)最后通过DataSink操作将结果数据集输出到外部系统。
流程
- 获得一个执行环境(ExecutionEnvironment)
- 加载/创建初始数据 (Source)
- 指定转换算子操作数据(Transformation)
- 指定存放结果位置(Sink)
二.示例
广播变量
flink 支持广播变量,就是将数据广播到具体taskManager上,数据存储在内存中,这样可以减缓大量的shuffle操作。
def setBroadcast(env: ExecutionEnvironment):

浙公网安备 33010602011771号