摘要:
1、相关介绍 Datasets:一个 Dataset 是一个分布式的数据集合 Dataset 是在 Spark 1.6 中被添加的新接口, 它提供了 RDD 的优点(强类型化, 能够使用强大的 lambda 函数)与Spark SQL执行引擎的优点。 DataFrame: 一个 DataFrame 阅读全文
posted @ 2018-08-07 21:46
流氓小伙子
阅读(286)
评论(0)
推荐(0)
摘要:
介绍 1、是spark core的扩展,针对实时数据流处理,具有可扩展、高吞吐量、容错. 数据可以是来自于kafka,flume,tcpsocket,使用高级函数(map reduce filter ,join , windows), 处理的数据可以推送到database,hdfs,针对数据流处理可 阅读全文
posted @ 2018-08-07 14:09
流氓小伙子
阅读(565)
评论(0)
推荐(0)

浙公网安备 33010602011771号