摘要:
1. 弹性分布式数据集RDD 1.1. RDD概述 1.1.1. 什么是RDD RDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性 阅读全文
posted @ 2018-12-17 10:02
_再遇见
阅读(1074)
评论(0)
推荐(0)
摘要:
1. Spark集群安装 1.1 机器部署 准备两台以上Linux服务器,安装好JDK 1.2 下载Spark安装包 提前到官网下载相应版本并上传spark-安装包到Linux上 解压安装包到指定位置 1.3 配置Spark 进入到Spark安装目录 进入conf目录并重命名并修改spark-env 阅读全文
posted @ 2018-12-17 09:27
_再遇见
阅读(240)
评论(0)
推荐(0)