Spark - 随笔分类 - ZacksTang

Spark Structured Streaming（二）实战

摘要：5. 实战Structured Streaming 5.1. Static版本先读一份static 数据： val static = spark.read.json("s3://xxx/data/activity-data/") static.printSchema root |-- Arriva 阅读全文

posted @ 2020-06-12 11:40 ZacksTang 阅读(2843) 评论(0) 推荐(0)

Spark Structured Streaming（一）基础

摘要：1. 流处理的场景我们在定义流处理时，会认为它处理的是对无止境的数据集的增量处理。不过对于这个定义来说，很难去与一些实际场景关联起来。在我们讨论流处理的优点与缺点时，先介绍一下流处理的常用场景。通知与警报：可能流应用最明显的例子就是通知（notification）与警报（alerting）。实阅读全文

posted @ 2020-06-09 16:13 ZacksTang 阅读(1639) 评论(0) 推荐(0)

DataFrames，Datasets，与 SparkSQL

摘要：Normal 0 false false false false EN-US ZH-CN X-NONE 1. DataFrames，Datasets，与SparkSQL Spark SQL 以及它的 DataFrames和Datasets 接口是Spark性能的未来，它们提供了更高效的存储选择，高级阅读全文

posted @ 2019-06-12 14:21 ZacksTang 阅读(636) 评论(0) 推荐(0)

Spark 中 GroupByKey 相对于 combineByKey, reduceByKey, foldByKey 的优缺点

摘要：避免使用GroupByKey 我们看一下两种计算word counts 的方法，一个使用reduceByKey，另一个使用 groupByKey： val words = Array("one", "two", "two", "three", "three", "three") val wordPa 阅读全文

posted @ 2019-06-08 15:05 ZacksTang 阅读(1577) 评论(0) 推荐(1)

Spark 并行计算模型：RDD

摘要：Spark 允许用户为driver（或主节点）编写运行在计算集群上，并行处理数据的程序。在Spark中，它使用RDDs代表大型的数据集，RDDs是一组不可变的分布式的对象的集合，存储在executors中（或从节点）。组成RDDs的对象称为partitions，并可能（但是也不是必须的）在分布式系统阅读全文

posted @ 2019-06-07 15:48 ZacksTang 阅读(2925) 评论(0) 推荐(0)

ZacksTang

随笔分类 - Spark

公告