摘要:
一、RDD简介 RDD 全称为 Resilient Distributed Datasets,是 Spark 最基本的数据抽象,它是只读的、分区记录的集合,支持并行操作,可以由外部数据集或其他 RDD 转换而来,它具有以下特性: 一个 RDD 由一个或者多个分区(Partitions)组成。对于 R 阅读全文
posted @ 2020-06-25 20:52
数据驱动
阅读(301)
评论(0)
推荐(0)
摘要:
一、安装Spark 1.1 下载并解压 官方下载地址:http://spark.apache.org/downloads.html ,选择 Spark 版本和对应的 Hadoop 版本后再下载: 解压安装包: # tar -zxvf spark-2.2.3-bin-hadoop2.6.tgz 1.2 阅读全文
posted @ 2020-06-25 19:57
数据驱动
阅读(436)
评论(0)
推荐(0)
摘要:
一、简介 Spark 于 2009 年诞生于加州大学伯克利分校 AMPLab,2013 年被捐赠给 Apache 软件基金会,2014 年 2 月成为 Apache 的顶级项目。相对于 MapReduce 的批处理计算,Spark 可以带来上百倍的性能提升,因此它成为继 MapReduce 之后,最 阅读全文
posted @ 2020-06-25 19:21
数据驱动
阅读(698)
评论(0)
推荐(0)

浙公网安备 33010602011771号