摘要: 通用的加载和保存方式 这里的通用指的是使用相同的API,根据不同的参数读取和保存不同格式的数据,SparkSQL默认读取和保存的文件格式为parque 1. 加载数据 spark.read.load是加载数据的通用方法,支持的数据源格式: scala> spark.read. csv jdbc lo 阅读全文
posted @ 2024-09-24 17:27 一年都在冬眠 阅读(124) 评论(0) 推荐(0)
摘要: DataSet DataSet是具有强类型的数据集合,需要提供对应的类型信息 1. 创建DataSet 使用样例类序列创建DataSet scala> case class person(id:Int,name:String,age:Int) defined class person scala> 阅读全文
posted @ 2024-09-24 16:43 一年都在冬眠 阅读(49) 评论(0) 推荐(0)
摘要: DataFrame Spark SQL的DataFrame API允许我们使用DataFrame而不用必须去注册临时表或者生成SQL表达式,DataFrame API既有transformation操作也有action操作 1. 创建DataFrame 从Spark数据源进行创建 启动Spark S 阅读全文
posted @ 2024-09-24 15:55 一年都在冬眠 阅读(101) 评论(0) 推荐(0)
摘要: 概述 Hive是将SQL转为MapReduce SparkSQL可以理解成是将SQL解析成:“RDD+优化”再执行 SparkSQL可以简化RDD的开发,提高开发效率,且执行效率非常快 Spark SQL为了简化RDD的开发,提高开发效率,提供了2个编程抽象,DataFrame和DataSet,类似 阅读全文
posted @ 2024-09-24 09:18 一年都在冬眠 阅读(178) 评论(0) 推荐(0)