上一页 1 2 3 4 5 6 7 ··· 30 下一页
摘要: 架构漫谈是由资深架构师王概凯 Kevin 执笔的系列专栏,专栏将会以 Kevin 的架构经验为基础,逐步讨论什么是架构、怎样做好架构、软件架构如何落地、如何写好程序等问题。 什么是架构? 根据要解决的问题,对目标系统的边界进行界定。 并对目标系统按某个原则的进行切分。切分的原则,要便于不同的角色,对 阅读全文
posted @ 2024-02-28 17:03 旺旺大菠萝 阅读(21) 评论(0) 推荐(0)
摘要: 1、RDD的缓存机制 RDD通过persist方法或cache方法可以将前面的计算结果缓存,但是并不是这两个方法被调用时立即缓存,而是触发后面的action时,该RDD将会被缓存在计算节点的内存中,并供后面重用。 通过查看源码发现cache最终也是调用了persist方法,默认的存储级别都是仅在内存 阅读全文
posted @ 2024-02-05 20:23 旺旺大菠萝 阅读(44) 评论(0) 推荐(0)
摘要: 案例一:计算网页访问量前三名 源数据大致预览: 编写Scala代码: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 4 阅读全文
posted @ 2024-02-05 20:23 旺旺大菠萝 阅读(20) 评论(0) 推荐(0)
摘要: 1)mapPartionWithIndex(func) 设置分区,并且查看每个分区中存放的元素 查看每个分区中元素 需要传递函数作为参数 val func = (index:Int,iter:Iterator[(Int)]) => {iter.toList.map(x => "partID:" + 阅读全文
posted @ 2024-02-05 20:23 旺旺大菠萝 阅读(10) 评论(0) 推荐(0)
摘要: 案例一:Spark版的WordCount程序 Step1:创建一个Maven工程。 编写Pom文件: <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi 阅读全文
posted @ 2024-02-02 14:45 旺旺大菠萝 阅读(12) 评论(0) 推荐(0)
摘要: 1:什么是RDD? RDD(Resilient Distributed DataSet)是分布式数据集。RDD是Spark最基本的 数据的抽象。 scala中的集合。RDD相当于一个不可变、可分区、里面的元素可以并行计算的集合。 RDD特点:具有数据流模型的特点 自动容错 位置感知调度 可伸缩性 R 阅读全文
posted @ 2024-02-02 14:45 旺旺大菠萝 阅读(37) 评论(0) 推荐(0)
摘要: 1. Spark基本API解读 首先我们写一段简单的进行单词统计的代码,考察其中出现的API,然后做出整理: import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaPairRDD; import org.apa 阅读全文
posted @ 2024-02-02 14:45 旺旺大菠萝 阅读(27) 评论(0) 推荐(0)
摘要: 做大数据一定要有一个概念,需要处理的数据量非常大,少则几十T,多则上百P,全部放内存是不可能的,会OOM,必须要用迭代器一条一条处理。 RDD叫做弹性分布式数据集,是早期Spark最核心的概念,是一种数据集合,它的核心就是迭代器。 创建方式 有两种创建RDD的方式: 在驱动程序中并行化现有集合 引用 阅读全文
posted @ 2024-01-30 15:28 旺旺大菠萝 阅读(6) 评论(0) 推荐(0)
摘要: IDEA安装Scala插件 创建Scala Maven项目 建好项目把App、AppTest、MySpec三个类删掉。修改pom文件里scala的版本号。 <properties> <scala.version>2.12.0</scala.version> </properties> 引入spark 阅读全文
posted @ 2024-01-29 16:39 旺旺大菠萝 阅读(8) 评论(0) 推荐(0)
摘要: Spark处理框架 这个里面最核心的是第二层Spark Core,在后面我们会学习到。 Spark Core:包含Spark的基本功能;尤其是定义RDD的API、操作以及这两者上的动作。其他Spark的库都是构建在RDD和Spark Core之上。 Spark SQL:提供通过Apache Hive 阅读全文
posted @ 2024-01-29 16:39 旺旺大菠萝 阅读(13) 评论(0) 推荐(0)
上一页 1 2 3 4 5 6 7 ··· 30 下一页