摘要: 前言:Spark编程模型两个主要抽象,一个是弹性分布式数据集RDD,它是一种特殊集合,支持多种数据源,可支持并行计算,可缓存;另一个是两种共享变量,支持并行计算的广播变量和累加器。 1.RDD介绍 Spark大数据处理平台建立在RDD之上,RDD是Spark的核心概念,最主要的抽象之一。RDD和Sp 阅读全文
posted @ 2018-09-14 16:17 知识小书包 阅读(593) 评论(0) 推荐(0)