huzuoliang

Spark自定义Timer类

摘要： Spark RecurringTimer RecurringTime 类是 Spark 自定义的定时执行类，简单的看下它的实现过程：构造函数： class RecurringTimer(clock: Clock, period: Long, callback: (Long) => Unit, na 阅读全文

posted @ 2017-07-04 14:27 huzuoliang 阅读(1434) 评论(0) 推荐(0)

Java中使用 Long 表示枚举类

摘要： Java中使用 Long 表示枚举类在日常的开发过程中，很多时候我们需要枚举类(enum)来表示对象的各种状态，并且每个状态往往会关联到指定的数字，如： private enum Color { RED(11), GREEN(21), YELLOW(31), BLACK(160); ... }; 阅读全文

posted @ 2017-06-29 18:26 huzuoliang 阅读(2157) 评论(0) 推荐(0)

DataFrame操作方式

摘要： DataFrame/DataSet 操作 Databricks 不止一次提到过希望未来在编写 Spark 应用程序过程中，对于结构化/半结构化数据，使用 Datasets(DataFrame 的扩展) 来代替 RDD 操作，这主要源于 Datasets 以下几个方面：充分利用了 Catalyst 阅读全文

posted @ 2017-06-23 16:52 huzuoliang 阅读(1233) 评论(0) 推荐(0)

DataFrame创建

摘要： DataFrame/DataSet 创建读文件接口 import org.apache.spark.sql.SparkSession val spark = SparkSession .builder() .appName("Spark SQL basic example") .config("s 阅读全文

posted @ 2017-06-23 16:52 huzuoliang 阅读(179) 评论(0) 推荐(0)

Streaming输入输出

摘要： Structured Streaming 输入输出输入 SparkSession.readStream() 返回一个 DataStreamReader 接口对象，可以通过该对象对输入源进行参数配置，最后返回DataFrame/DataSet对象。输入源有三种 File : csv,json,te 阅读全文

posted @ 2017-06-23 16:51 huzuoliang 阅读(260) 评论(0) 推荐(0)

Streaming结合Kafka

摘要： Spark2.11 两种流操作 + Kafka Spark2.x 自从引入了 Structured Streaming 后，未来数据操作将逐步转化到 DataFrame/DataSet，以下将介绍 Spark2.x 如何与 Kafka0.10+整合 Structured Streaming + Ka 阅读全文

posted @ 2017-06-23 16:51 huzuoliang 阅读(2417) 评论(0) 推荐(0)

Structured-Streaming之窗口操作

摘要： Structured Streaming 之窗口事件时间聚合操作 Spark Streaming 中 Exactly Once 指的是：每条数据从输入源传递到 Spark 应用程序 Exactly Once 每条数据只会分到 Exactly Once batch 处理输出端文件系统保证幂等关系阅读全文

posted @ 2017-06-23 16:40 huzuoliang 阅读(557) 评论(1) 推荐(0)

导航

公告