09 2020 档案

摘要:一、Flink的定义 Flnk是一个分布式处理引擎,用于在无边界和有边界数据流上进行有状态的计算。Flink能在常见集群环境中运行,并能以内存速度和任意规模进行计算。 二、有界流和无界流 Flink的核心是流处理,当然也支持批处理。Flink的本质是流处理,它将批处理看作是流处理的特殊情况,即有界流 阅读全文
posted @ 2020-09-30 00:14 yangyh11 阅读(627) 评论(0) 推荐(0)
摘要:Java8引入了新的时间和日期API,非常方便好用。在这里记录下新的api在工作中常用的操作 一、获取当前时间和日期 1.获取当前日期 LocalDate now = LocalDate.now(); System.out.println(now); System.out.println(now.g 阅读全文
posted @ 2020-09-26 22:09 yangyh11 阅读(291) 评论(0) 推荐(0)
摘要:RDD Resilient Distributed DataSet:弹性分布式数据集 弹性:Spark可以通过重新安排计算来自动重建丢失的分区。 分布式:集群中跨多个机器分区存储。 RDD是一个基本的抽象,操作RDD就像操作一个本地集合一样,降低了编程的复杂度。 RDD不存储真正要计算的数据,而是记 阅读全文
posted @ 2020-09-06 15:17 yangyh11 阅读(179) 评论(0) 推荐(0)
摘要:一、Tranformation算子 Transformations类算子叫做转换算子,该类算子是延迟加载,也叫懒加载,必须有action类算子才会触发。 1.1 filter 保留符合条件的数据,类似于SQL中的where子句。true保留,false过滤掉 val rdd = sc.makeRDD 阅读全文
posted @ 2020-09-01 23:24 yangyh11 阅读(413) 评论(0) 推荐(0)