摘要:
1. RDD 的设计与运行原理 Spark 的核心是建立在统一的抽象 RDD 之上,基于 RDD 的转换和行动操作使得 Spark 的各个组件可以无缝进行集成,从而在同一个应用程序中完成大数据计算任务。 在实际应用中,存在许多迭代式算法和交互式数据挖掘工具,这些应用场景的共同之处在于不同计算阶段之间 阅读全文
posted @ 2021-01-08 18:03
大浪不惊涛
阅读(360)
评论(0)
推荐(0)
摘要:
RDD 弹性分布式数据集 RDD概述 RDD论文 中文版 : http://spark.apachecn.org/paper/zh/spark-rdd.html RDD产生背景 为了解决开发人员能在大规模的集群中以一种容错的方式进行内存计算,提出了 RDD 的概念,而当前的很多框架对迭代式算法场景与 阅读全文
posted @ 2021-01-08 17:55
大浪不惊涛
阅读(557)
评论(0)
推荐(0)
摘要:
任何Spark程序都是SparkContext开始的,SparkContext的初始化需要一个SparkConf对象,SparkConf包含了Spark集群配置的各种参数。 初始化后,就可以使用SparkContext对象所包含的各种方法来创建和操作RDD和共享变量。 Scala: 1 2 3 4 阅读全文
posted @ 2021-01-08 17:32
大浪不惊涛
阅读(880)
评论(1)
推荐(0)

浙公网安备 33010602011771号