随笔分类 - Spark学习
摘要:RDD创建 每个RDD被分为多个分区,这些分区运行在集群的不同节点上。 用户可以使用两种方法创建RDD:读取一个外部数据集,或在驱动器程序里driver分发驱动器程序中的对象集合(list和set)。textFile()和parallelize(). RDD支持两种类型的操作:转换操作和行动操作。惰
阅读全文
摘要:根据[http://dblab.xmu.edu.cn/blog/804 2/]的安装步骤 1. 安装ubuntu18.04 2. 更换国内源,更新apt get 3. 安装shh,配置免密登录 4. 安装Java 5. 安装Hadoop,配置为伪分布式 6. 安装Spark,配置环境变量 最后形成H
阅读全文
摘要:Spark运行架构 基本概念 RDD:分布式内存的抽象概念,高度受限的共享内存模型 DAG:有向无环图,反应RDD的依赖关系 Executot:运行在工作节点的一个进程,负责运行任务,存储数据 任务Task:运行在Executor上的工作单元 作业:一个作业包含多个RDD及作用于相应RDD的操作 阶
阅读全文
摘要:在Spark中,RDD(弹性分布式数据集)存在依赖关系,宽依赖和窄依赖。 宽依赖和窄依赖的区别是RDD之间是否存在shuffle操作。 窄依赖 窄依赖指父RDD的每一个分区最多被一个子RDD的分区所用,即一个父RDD对应一个子RDD或多个父RDD对应一个子RDD map,filter,union属于
阅读全文
浙公网安备 33010602011771号