摘要:
通用的加载和保存方式 这里的通用指的是使用相同的API,根据不同的参数读取和保存不同格式的数据,SparkSQL默认读取和保存的文件格式为parque 1. 加载数据 spark.read.load是加载数据的通用方法,支持的数据源格式: scala> spark.read. csv jdbc lo 阅读全文
posted @ 2024-09-24 17:27
一年都在冬眠
阅读(124)
评论(0)
推荐(0)
摘要:
DataSet DataSet是具有强类型的数据集合,需要提供对应的类型信息 1. 创建DataSet 使用样例类序列创建DataSet scala> case class person(id:Int,name:String,age:Int) defined class person scala> 阅读全文
posted @ 2024-09-24 16:43
一年都在冬眠
阅读(49)
评论(0)
推荐(0)
摘要:
DataFrame Spark SQL的DataFrame API允许我们使用DataFrame而不用必须去注册临时表或者生成SQL表达式,DataFrame API既有transformation操作也有action操作 1. 创建DataFrame 从Spark数据源进行创建 启动Spark S 阅读全文
posted @ 2024-09-24 15:55
一年都在冬眠
阅读(101)
评论(0)
推荐(0)
摘要:
概述 Hive是将SQL转为MapReduce SparkSQL可以理解成是将SQL解析成:“RDD+优化”再执行 SparkSQL可以简化RDD的开发,提高开发效率,且执行效率非常快 Spark SQL为了简化RDD的开发,提高开发效率,提供了2个编程抽象,DataFrame和DataSet,类似 阅读全文
posted @ 2024-09-24 09:18
一年都在冬眠
阅读(178)
评论(0)
推荐(0)

浙公网安备 33010602011771号