摘要: 一、RDD简介 RDD 全称为 Resilient Distributed Datasets,是 Spark 最基本的数据抽象,它是只读的、分区记录的集合,支持并行操作,可以由外部数据集或其他 RDD 转换而来,它具有以下特性: 一个 RDD 由一个或者多个分区(Partitions)组成。对于 R 阅读全文
posted @ 2020-06-25 20:52 数据驱动 阅读(301) 评论(0) 推荐(0)
摘要: 一、安装Spark 1.1 下载并解压 官方下载地址:http://spark.apache.org/downloads.html ,选择 Spark 版本和对应的 Hadoop 版本后再下载: 解压安装包: # tar -zxvf spark-2.2.3-bin-hadoop2.6.tgz 1.2 阅读全文
posted @ 2020-06-25 19:57 数据驱动 阅读(436) 评论(0) 推荐(0)
摘要: 一、简介 Spark 于 2009 年诞生于加州大学伯克利分校 AMPLab,2013 年被捐赠给 Apache 软件基金会,2014 年 2 月成为 Apache 的顶级项目。相对于 MapReduce 的批处理计算,Spark 可以带来上百倍的性能提升,因此它成为继 MapReduce 之后,最 阅读全文
posted @ 2020-06-25 19:21 数据驱动 阅读(698) 评论(0) 推荐(0)