一年都在冬眠

2024年9月24日

摘要：通用的加载和保存方式这里的通用指的是使用相同的API，根据不同的参数读取和保存不同格式的数据，SparkSQL默认读取和保存的文件格式为parque 1. 加载数据 spark.read.load是加载数据的通用方法，支持的数据源格式： scala> spark.read. csv jdbc lo 阅读全文

posted @ 2024-09-24 17:27 一年都在冬眠阅读(138) 评论(0) 推荐(0)

Spark（十）SparkSQL DataSet

摘要： DataSet DataSet是具有强类型的数据集合，需要提供对应的类型信息 1. 创建DataSet 使用样例类序列创建DataSet scala> case class person(id:Int,name:String,age:Int) defined class person scala> 阅读全文

posted @ 2024-09-24 16:43 一年都在冬眠阅读(62) 评论(0) 推荐(0)

Spark（九）SparkSQL DataFrame

摘要： DataFrame Spark SQL的DataFrame API允许我们使用DataFrame而不用必须去注册临时表或者生成SQL表达式，DataFrame API既有transformation操作也有action操作 1. 创建DataFrame 从Spark数据源进行创建启动Spark S 阅读全文

posted @ 2024-09-24 15:55 一年都在冬眠阅读(111) 评论(0) 推荐(0)

Spark（八）SparkSQL概述

摘要：概述 Hive是将SQL转为MapReduce SparkSQL可以理解成是将SQL解析成：“RDD+优化”再执行 SparkSQL可以简化RDD的开发，提高开发效率，且执行效率非常快 Spark SQL为了简化RDD的开发，提高开发效率，提供了2个编程抽象，DataFrame和DataSet,类似阅读全文

posted @ 2024-09-24 09:18 一年都在冬眠阅读(182) 评论(0) 推荐(0)

2024年9月23日

Spark（七）Spark运行架构

摘要：运行架构 Spark框架的核心是一个计算引擎，采用了标准master-slave的结构如图展示了一个Spark执行时的基本结构，Driver表示master，负责管理整个集群中的作业任务调度，Executor是slave，负责实际执行任务核心组件 1. Driver Spark驱动器节点，用于执阅读全文

posted @ 2024-09-23 17:38 一年都在冬眠阅读(250) 评论(0) 推荐(0)

Spark（六）运行模式（二）

摘要： Yarn模式 1、解压缩文件 [user@hadoop102 software]$ tar -zxvf spark-3.0.0-bin-hadoop3.2.tgz -C /opt/module [user@hadoop102 software]$ cd /opt/module [user@hadoo 阅读全文

posted @ 2024-09-23 16:44 一年都在冬眠阅读(59) 评论(0) 推荐(0)

Spark（五）运行模式（一）

摘要： Local模式不需要其他任何节点资源就可以在本地执行Spark代码的环境，一般用于教学，调试，演示等在IDEA中运行代码的环境称之为开发环境 1、解压缩文件将spark-3.0.0-bin-hadoop3.2.tgz文件上传到Linux并解压缩，放置在指定位置，路径中不要包含中文或空格压缩文阅读全文

posted @ 2024-09-23 11:23 一年都在冬眠阅读(130) 评论(0) 推荐(0)

2024年9月20日

Spark（四）Spark入门案例WordCount

摘要： WordCount 课程学习基于scala语言，首先确保安装scala插件增加依赖关系修改Maven项目中的POM文件，增加Spark框架的依赖关系 <dependencies> <dependency> <groupId>org.apache.spark</groupId> <artifact 阅读全文

posted @ 2024-09-20 17:00 一年都在冬眠阅读(75) 评论(0) 推荐(0)

Spark（三）Spark Core（二）RDD

摘要： RDD详解 RDD持久化/缓存某些RDD的计算或转换可能会比较耗费时间，如果这些RDD后续还会频繁的被使用到，那么可以将这些RDD进行持久化/缓存 val rdd1 = sc.textFile("hdfs://node01:8020/words.txt") val rdd2 = rdd1.flat 阅读全文

posted @ 2024-09-20 14:52 一年都在冬眠阅读(63) 评论(0) 推荐(0)

Spark（二）Spark Core（一）RDD

摘要： RDD详解前提：MapReduce框架采用非循环式的数据流模型，把中间结果写入到HDFS中，带来了大量的数据复制、磁盘IO和序列化开销，且这些框架只能支持一些特定的计算模式(map/reduce)，并没有提供一种通用的数据抽象，因此出现了RDD这个概念概念 RDD(Resilient Distr 阅读全文

posted @ 2024-09-20 14:00 一年都在冬眠阅读(135) 评论(0) 推荐(0)

shihongpin

公告