摘要: 1、相关介绍 Datasets:一个 Dataset 是一个分布式的数据集合 Dataset 是在 Spark 1.6 中被添加的新接口, 它提供了 RDD 的优点(强类型化, 能够使用强大的 lambda 函数)与Spark SQL执行引擎的优点。 DataFrame: 一个 DataFrame 阅读全文
posted @ 2018-08-07 21:46 流氓小伙子 阅读(286) 评论(0) 推荐(0)
摘要: 介绍 1、是spark core的扩展,针对实时数据流处理,具有可扩展、高吞吐量、容错. 数据可以是来自于kafka,flume,tcpsocket,使用高级函数(map reduce filter ,join , windows), 处理的数据可以推送到database,hdfs,针对数据流处理可 阅读全文
posted @ 2018-08-07 14:09 流氓小伙子 阅读(565) 评论(0) 推荐(0)