随笔分类 -  Spark

摘要:5. 实战Structured Streaming 5.1. Static版本 先读一份static 数据: val static = spark.read.json("s3://xxx/data/activity-data/") static.printSchema root |-- Arriva 阅读全文
posted @ 2020-06-12 11:40 ZacksTang 阅读(2843) 评论(0) 推荐(0)
摘要:1. 流处理的场景 我们在定义流处理时,会认为它处理的是对无止境的数据集的增量处理。不过对于这个定义来说,很难去与一些实际场景关联起来。在我们讨论流处理的优点与缺点时,先介绍一下流处理的常用场景。 通知与警报:可能流应用最明显的例子就是通知(notification)与警报(alerting)。 实 阅读全文
posted @ 2020-06-09 16:13 ZacksTang 阅读(1639) 评论(0) 推荐(0)
摘要:Normal 0 false false false false EN-US ZH-CN X-NONE 1. DataFrames,Datasets,与SparkSQL Spark SQL 以及它的 DataFrames和Datasets 接口是Spark性能的未来,它们提供了更高效的存储选择,高级 阅读全文
posted @ 2019-06-12 14:21 ZacksTang 阅读(636) 评论(0) 推荐(0)
摘要:避免使用GroupByKey 我们看一下两种计算word counts 的方法,一个使用reduceByKey,另一个使用 groupByKey: val words = Array("one", "two", "two", "three", "three", "three") val wordPa 阅读全文
posted @ 2019-06-08 15:05 ZacksTang 阅读(1577) 评论(0) 推荐(1)
摘要:Spark 允许用户为driver(或主节点)编写运行在计算集群上,并行处理数据的程序。在Spark中,它使用RDDs代表大型的数据集,RDDs是一组不可变的分布式的对象的集合,存储在executors中(或从节点)。组成RDDs的对象称为partitions,并可能(但是也不是必须的)在分布式系统 阅读全文
posted @ 2019-06-07 15:48 ZacksTang 阅读(2925) 评论(0) 推荐(0)