2018 年 5月 20 日随笔档案 - niutao

2018年5月20日

摘要： Flink提供了一个类似于Hadoop的分布式缓存，让并行运行实例的函数可以在本地访问。这个功能可以被使用来分享外部静态的数据，例如：机器学习的逻辑回归模型等！缓存的使用流程：使用ExecutionEnvironment实例对本地的或者远程的文件（例如：HDFS上的文件）,为缓存文件指定一个名字阅读全文

posted @ 2018-05-20 19:46 niutao 阅读(956) 评论(0) 推荐(0)

Flink的广播变量

摘要： Flink支持广播变量，就是将数据广播到具体的taskmanager上，数据存储在内存中，这样可以减缓大量的shuffle操作；比如在数据join阶段，不可避免的就是大量的shuffle操作，我们可以把其中一个dataSet广播出去，一直加载到taskManager的内存中，可以直接在内存中拿数据阅读全文

posted @ 2018-05-20 19:44 niutao 阅读(1679) 评论(0) 推荐(0)

Flink--本地执行和集群执行

摘要：本地执行 LocalEnvironment是Flink程序本地执行的句柄。用它在本地JVM中运行程序 - 独立运行或嵌入其他程序中。本地环境通过该方法实例化ExecutionEnvironment.createLocalEnvironment()。默认情况下，它将使用尽可能多的本地线程执行，因为您阅读全文

posted @ 2018-05-20 19:43 niutao 阅读(2266) 评论(1) 推荐(0)

Flink-- 数据输出Data Sinks

摘要： flink在批处理中常见的sink 基于本地集合的sink（Collection-based-sink） //1.定义环境 val env = ExecutionEnvironment.getExecutionEnvironment //2.定义数据 stu(age,name,height) val 阅读全文

posted @ 2018-05-20 19:41 niutao 阅读(4208) 评论(0) 推荐(0)

Flink--输入数据集Data Sources

摘要： flink在批处理中常见的source flink在批处理中常见的source主要有两大类。在flink最常见的创建DataSet方式有三种。基于本地集合的 import org.apache.flink.api.scala.{DataSet, ExecutionEnvironment, _} 阅读全文

posted @ 2018-05-20 19:38 niutao 阅读(1281) 评论(0) 推荐(0)