摘要: 一、SparkStreaming概述 SparkStreaming是一种构建在Spark基础上的实时计算框架,它扩展了Spark处理大规模流式数据的能力,以吞吐量高和容错能力强著称。 SparkStreaming会将源数据以batch为单位来进行处理,每一批数据封装为一个DStream。即Spark 阅读全文
posted @ 2020-01-30 22:40 coder、 阅读(239) 评论(0) 推荐(0) 编辑
摘要: SparkSQL将RDD封装成一个DataFrame对象,这个对象类似于关系型数据库中的表。 一、SparkSQL入门 1、创建DataFrame 相当于数据库中的一张表,它是一个只读的表,不能在运算过程中再往里加元素。RDD.toDF("列名") 2、创建多列DataFrame对象 1)2列Dat 阅读全文
posted @ 2020-01-30 22:20 coder、 阅读(314) 评论(0) 推荐(0) 编辑