摘要: WordCount 课程学习基于scala语言,首先确保安装scala插件 增加依赖关系 修改Maven项目中的POM文件,增加Spark框架的依赖关系 <dependencies> <dependency> <groupId>org.apache.spark</groupId> <artifact 阅读全文
posted @ 2024-09-20 17:00 一年都在冬眠 阅读(70) 评论(0) 推荐(0)
摘要: RDD详解 RDD持久化/缓存 某些RDD的计算或转换可能会比较耗费时间,如果这些RDD后续还会频繁的被使用到,那么可以将这些RDD进行持久化/缓存 val rdd1 = sc.textFile("hdfs://node01:8020/words.txt") val rdd2 = rdd1.flat 阅读全文
posted @ 2024-09-20 14:52 一年都在冬眠 阅读(56) 评论(0) 推荐(0)
摘要: RDD详解 前提:MapReduce框架采用非循环式的数据流模型,把中间结果写入到HDFS中,带来了大量的数据复制、磁盘IO和序列化开销,且这些框架只能支持一些特定的计算模式(map/reduce),并没有提供一种通用的数据抽象,因此出现了RDD这个概念 概念 RDD(Resilient Distr 阅读全文
posted @ 2024-09-20 14:00 一年都在冬眠 阅读(125) 评论(0) 推荐(0)
摘要: 基本概念 Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎 Spark vs Hadoop Spark和Hadoop的根本差异是多个作业之间的数据通信问题:Spark多个作业之间数据通信是基于内存,而Hadoop是基于磁盘 Hadoop Spark 类型 分布式基础平台, 包含计算, 阅读全文
posted @ 2024-09-20 09:49 一年都在冬眠 阅读(79) 评论(0) 推荐(0)