2017年7月4日

摘要: Spark RecurringTimer RecurringTime 类是 Spark 自定义的定时执行类,简单的看下它的实现过程: 构造函数: class RecurringTimer(clock: Clock, period: Long, callback: (Long) => Unit, na 阅读全文
posted @ 2017-07-04 14:27 huzuoliang 阅读(1434) 评论(0) 推荐(0)

2017年6月29日

摘要: Java中使用 Long 表示枚举类 在日常的开发过程中,很多时候我们需要枚举类(enum)来表示对象的各种状态,并且每个状态往往会关联到指定的数字,如: private enum Color { RED(11), GREEN(21), YELLOW(31), BLACK(160); ... }; 阅读全文
posted @ 2017-06-29 18:26 huzuoliang 阅读(2157) 评论(0) 推荐(0)

2017年6月23日

摘要: DataFrame/DataSet 操作 Databricks 不止一次提到过希望未来在编写 Spark 应用程序过程中,对于结构化/半结构化数据,使用 Datasets(DataFrame 的扩展) 来代替 RDD 操作,这主要源于 Datasets 以下几个方面: 充分利用了 Catalyst 阅读全文
posted @ 2017-06-23 16:52 huzuoliang 阅读(1233) 评论(0) 推荐(0)
摘要: DataFrame/DataSet 创建 读文件接口 import org.apache.spark.sql.SparkSession val spark = SparkSession .builder() .appName("Spark SQL basic example") .config("s 阅读全文
posted @ 2017-06-23 16:52 huzuoliang 阅读(179) 评论(0) 推荐(0)
摘要: Structured Streaming 输入输出 输入 SparkSession.readStream() 返回一个 DataStreamReader 接口对象,可以通过该对象对输入源进行参数配置,最后返回DataFrame/DataSet对象。 输入源有三种 File : csv,json,te 阅读全文
posted @ 2017-06-23 16:51 huzuoliang 阅读(260) 评论(0) 推荐(0)
摘要: Spark2.11 两种流操作 + Kafka Spark2.x 自从引入了 Structured Streaming 后,未来数据操作将逐步转化到 DataFrame/DataSet,以下将介绍 Spark2.x 如何与 Kafka0.10+整合 Structured Streaming + Ka 阅读全文
posted @ 2017-06-23 16:51 huzuoliang 阅读(2417) 评论(0) 推荐(0)
摘要: Structured Streaming 之窗口事件时间聚合操作 Spark Streaming 中 Exactly Once 指的是: 每条数据从输入源传递到 Spark 应用程序 Exactly Once 每条数据只会分到 Exactly Once batch 处理 输出端文件系统保证幂等关系 阅读全文
posted @ 2017-06-23 16:40 huzuoliang 阅读(557) 评论(1) 推荐(0)

导航