摘要:
实验1 Linux系统的安装和常用命令 一、实验目的 (1)掌握 Linux 虚拟机的安装方法。Spark 和 Hadoop 等大数据软件在 Linux 操作系统上运行可以发挥最佳性能,因此,本教程中,Spark 都是在 Linux 系统中进行相关操作,同时,下一章的 Scala 语言也会在 Lin 阅读全文
摘要:
1.RDD定义:弹性分布式数据集,是spark中最基本的数据抽象,代表一个不可变、可分区、里面的元素可并行计算的集合 2.RDD五大特性 A list of partitions:RDD是有分区的A function for computing each split:计算方法会做用到每一个分片(分区 阅读全文
摘要:
1.spark on yarn的本质 master角色由yarn的resouorcemanager担任 worker角色由yarn的nodemanager担任 driver角色运行在yarn容器内或提交任务的客户端进程 真正干活的executor运行在yarn提供的容器内 2.spark on ya 阅读全文