2024 年 9月 24 日随笔档案 - 一年都在冬眠

2024年9月24日

摘要：通用的加载和保存方式这里的通用指的是使用相同的API，根据不同的参数读取和保存不同格式的数据，SparkSQL默认读取和保存的文件格式为parque 1. 加载数据 spark.read.load是加载数据的通用方法，支持的数据源格式： scala> spark.read. csv jdbc lo 阅读全文

posted @ 2024-09-24 17:27 一年都在冬眠阅读(138) 评论(0) 推荐(0)

Spark（十）SparkSQL DataSet

摘要： DataSet DataSet是具有强类型的数据集合，需要提供对应的类型信息 1. 创建DataSet 使用样例类序列创建DataSet scala> case class person(id:Int,name:String,age:Int) defined class person scala> 阅读全文

posted @ 2024-09-24 16:43 一年都在冬眠阅读(63) 评论(0) 推荐(0)

Spark（九）SparkSQL DataFrame

摘要： DataFrame Spark SQL的DataFrame API允许我们使用DataFrame而不用必须去注册临时表或者生成SQL表达式，DataFrame API既有transformation操作也有action操作 1. 创建DataFrame 从Spark数据源进行创建启动Spark S 阅读全文

posted @ 2024-09-24 15:55 一年都在冬眠阅读(111) 评论(0) 推荐(0)

Spark（八）SparkSQL概述

摘要：概述 Hive是将SQL转为MapReduce SparkSQL可以理解成是将SQL解析成：“RDD+优化”再执行 SparkSQL可以简化RDD的开发，提高开发效率，且执行效率非常快 Spark SQL为了简化RDD的开发，提高开发效率，提供了2个编程抽象，DataFrame和DataSet,类似阅读全文

posted @ 2024-09-24 09:18 一年都在冬眠阅读(182) 评论(0) 推荐(0)

shihongpin

公告