摘要: Spark集群搭建(不常用) 1、上传解压,配置环境变量 配置bin目录,解压 重命名 tar -xvf spark-2.4.5-bin-hadoop2.7.tgz 配置环境变量 mv spark-2.4.5-bin-hadoop2.7 spark-2.4.5 环境变量配置完成后记得source一下 阅读全文
posted @ 2022-07-12 23:50 a-tao必须奥利给 阅读(86) 评论(0) 推荐(0)
摘要: Spark—算子—spark缓存策略 转换算子和操作算子 转换算子 ==转换算子:将一个RDD转换成另一个RDD,转换算子是懒执行,需要action算子来触发执行== 操作算子 ==触发任务执行,一个action算子会触发一次任务执行,同时每一个action算子都会触发前面的代码执行== packa 阅读全文
posted @ 2022-07-12 22:54 a-tao必须奥利给 阅读(180) 评论(0) 推荐(0)
摘要: Spark_常用算子 sortBy-sortBy: 指定一个字段进行排序,默认是升序, ascending = false: 降序 package com.core.day2 import org.apache.spark.rdd.RDD import org.apache.spark.{Spark 阅读全文
posted @ 2022-07-12 22:28 a-tao必须奥利给 阅读(56) 评论(0) 推荐(0)
摘要: Spark解决问题 配置pom.xml文件 <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLS 阅读全文
posted @ 2022-07-12 13:59 a-tao必须奥利给 阅读(34) 评论(0) 推荐(0)
摘要: spark-算子 groupBy -分组 package com.core import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} object Demo7GroupBy { def main 阅读全文
posted @ 2022-07-12 08:49 a-tao必须奥利给 阅读(45) 评论(0) 推荐(0)
摘要: Spark内核 RDD ResilientDistributedDataset (弹性分布式数据集 ) 五大特性: A list of partitions A function for computing each split A list of dependencies on other RDD 阅读全文
posted @ 2022-07-12 08:39 a-tao必须奥利给 阅读(265) 评论(0) 推荐(0)
摘要: Spark初识 回顾一下前面的MapReduce流程,可以更好的学习spark spark的框架 spark为什么比hadoop速度快 spark支持哪些语言 spark的运行模式有哪些 spark的单词统计 package com.core import org.apache.spark.rdd. 阅读全文
posted @ 2022-07-12 08:19 a-tao必须奥利给 阅读(43) 评论(0) 推荐(0)