2024 年 9月 20 日随笔档案 - 一年都在冬眠

2024年9月20日

摘要： WordCount 课程学习基于scala语言，首先确保安装scala插件增加依赖关系修改Maven项目中的POM文件，增加Spark框架的依赖关系 <dependencies> <dependency> <groupId>org.apache.spark</groupId> <artifact 阅读全文

posted @ 2024-09-20 17:00 一年都在冬眠阅读(75) 评论(0) 推荐(0)

Spark（三）Spark Core（二）RDD

摘要： RDD详解 RDD持久化/缓存某些RDD的计算或转换可能会比较耗费时间，如果这些RDD后续还会频繁的被使用到，那么可以将这些RDD进行持久化/缓存 val rdd1 = sc.textFile("hdfs://node01:8020/words.txt") val rdd2 = rdd1.flat 阅读全文

posted @ 2024-09-20 14:52 一年都在冬眠阅读(63) 评论(0) 推荐(0)

Spark（二）Spark Core（一）RDD

摘要： RDD详解前提：MapReduce框架采用非循环式的数据流模型，把中间结果写入到HDFS中，带来了大量的数据复制、磁盘IO和序列化开销，且这些框架只能支持一些特定的计算模式(map/reduce)，并没有提供一种通用的数据抽象，因此出现了RDD这个概念概念 RDD(Resilient Distr 阅读全文

posted @ 2024-09-20 14:00 一年都在冬眠阅读(135) 评论(0) 推荐(0)

Spark（一）概述

摘要：基本概念 Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎 Spark vs Hadoop Spark和Hadoop的根本差异是多个作业之间的数据通信问题：Spark多个作业之间数据通信是基于内存，而Hadoop是基于磁盘 Hadoop Spark 类型分布式基础平台, 包含计算, 阅读全文

posted @ 2024-09-20 09:49 一年都在冬眠阅读(93) 评论(0) 推荐(0)

shihongpin

公告