spark 笔记1
1.1

1.2

2.

2.1

2.2

2.2.1
![]()
2.2.2

2.2.3

3

一 :本节课内容
1.RDD持久化cache()和presisit()应用程序管理,当应用程序生命周期结束的时候,不管是
硬盘还是内存,缓存数据都会丢失
2.checkpoint --spark框架管理,缓存数据到HDFS上去
3.RDD总结
sparkCore ---RDD
RDD定义、特点、算子分类、应用、文件读取和保存
二、sparksql


A:



3:查询语句(对数据分析或者操作)
1.SQL:数据读进来-->生成一个临时表-->写sql语句-->, 对数据进行分析


2.DSL:调用算子(filter\orderBy\)



1.dataframe 转化为datase
先创建一个样例类

导入包


2.dataset转换为dataset



浙公网安备 33010602011771号