spark 笔记1

1.1

 

1.2

 

 

2.

 

2.1

 

2.2

 

 2.2.1

 

 2.2.2

2.2.3

 

 3

一 :本节课内容

1.RDD持久化cache()和presisit()应用程序管理,当应用程序生命周期结束的时候,不管是

硬盘还是内存,缓存数据都会丢失

2.checkpoint --spark框架管理,缓存数据到HDFS上去

3.RDD总结

sparkCore ---RDD

RDD定义、特点、算子分类、应用、文件读取和保存

二、sparksql

 

 

 

 

 A:

 

 

 

 

 

 

 

3:查询语句(对数据分析或者操作)

1.SQL:数据读进来-->生成一个临时表-->写sql语句-->, 对数据进行分析

 

 

2.DSL:调用算子(filter\orderBy\)

 

 

 

 

1.dataframe 转化为datase

先创建一个样例类

 

 

 

导入包

 

 

 

 2.dataset转换为dataset

 

 

 

 

posted @ 2020-04-08 14:56  张图南  阅读(101)  评论(0)    收藏  举报