文章分类 -  Spark

摘要:Spark 2.x管理与开发-Spark的算子(五)RDD基础练习 练习1: //通过并行化生成rdd val rdd1 = sc.parallelize(List(5, 6, 4, 7, 3, 8, 2, 9, 1, 10)) //对rdd1里的每一个元素乘2然后排序 val rdd2 = rdd 阅读全文

posted @ 2020-07-12 10:57 MissRong 阅读(117) 评论(0) 推荐(0) |

摘要:Spark 2.x管理与开发-Spark的算子(四)RDD的特性(3)RDD的依赖关系和Spark任务中的Stage 一、RDD的依赖关系 RDD和它依赖的父RDD(s)的关系有两种不同的类型,即窄依赖(narrow dependency)和宽依赖(wide dependency)。 窄依赖指的是每 阅读全文

posted @ 2020-07-12 10:43 MissRong 阅读(91) 评论(0) 推荐(0) |

摘要:Spark 2.x管理与开发-Spark的算子(四)RDD的特性(2)RDD的Checkpoint(检查点)机制:容错机制 检查点(本质是通过将RDD写入Disk做检查点)是为了通过lineage(血统)做容错的辅助,lineage过长会造成容错成本过高,这样就不如在中间阶段做检查点容错,如果之后有 阅读全文

posted @ 2020-07-12 10:30 MissRong 阅读(102) 评论(0) 推荐(0) |

摘要:Spark 2.x管理与开发-Spark的算子(四)RDD的特性(1)RDD的缓存机制 RDD的缓存机制默认将RDD的数据缓存在内存中 (1)作用:提高性能 (2)使用:persist或者cache函数标识RDD可以被缓存 cache方法本质调用了persist RDD通过persist方法或cac 阅读全文

posted @ 2020-07-12 10:11 MissRong 阅读(112) 评论(0) 推荐(0) |

摘要:Spark 2.x管理与开发-Spark的算子(三)Action* 动作 含义 reduce(func):聚合 通过func函数聚集RDD中的所有元素,这个功能必须是课交换且可并联的 collect() 在驱动程序中,以数组的形式返回数据集的所有元素 count() 返回RDD的元素个数 first 阅读全文

posted @ 2020-07-12 09:57 MissRong 阅读(71) 评论(0) 推荐(0) |

摘要:Spark 2.x管理与开发-Spark的算子(二)Transformation* Transformation:延时计算lazy修饰,不会立刻触发计算。(重点) RDD中的所有转换都是延迟加载的,也就是说,它们并不会直接计算结果。相反的,它们只是记住这些应用到基础数据集(例如一个文件)上的转换动作 阅读全文

posted @ 2020-07-12 09:55 MissRong 阅读(110) 评论(0) 推荐(0) |

摘要:Spark 2.x管理与开发-Spark的算子(一)RDD基础* 1)什么是RDD? RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象(也就是Spark处理的数据,都是RDD),它代表一个不可变、可分区、里面的元素可并行计算的集 阅读全文

posted @ 2020-07-09 22:41 MissRong 阅读(140) 评论(0) 推荐(0) |

摘要:Spark 2.x管理与开发-Spark运行机制及原理分析 1、WordCount执行的流程分析 需要看源码一步一步看 2、Spark提交任务的流程 阅读全文

posted @ 2020-07-09 22:20 MissRong 阅读(90) 评论(0) 推荐(0) |

摘要:Spark 2.x管理与开发-执行Spark Demo程序(三)在IDEA、Eclipse中编写WordCount程序 (1)需要的jar包:$SPARK_HOME/jars/*.jar (2)创建Scala Project,并创建Scala Object、或者Java Class (3)书写源代码 阅读全文

posted @ 2020-07-09 00:06 MissRong 阅读(98) 评论(0) 推荐(0) |

摘要:Spark 2.x管理与开发-执行Spark Demo程序(二)使用Spark Shell spark-shell是Spark自带的交互式Shell程序,方便用户进行交互式编程,用户可以在该命令行下用scala编写spark程序。 操作过程概述: (1)启动Spark Shell:spark-she 阅读全文

posted @ 2020-07-08 23:48 MissRong 阅读(271) 评论(0) 推荐(0) |

摘要:Spark 2.x管理与开发-执行Spark Demo程序(一)使用Spark submit工具 准备: 以下操作都是在伪分布式的基础上进行的(因为全分布式状态下容易发生内存溢出状况)。 将之前开启的各个进程都停掉,修改配置文件到伪分布式的状态。 [root@bigdata111 conf]# vi 阅读全文

posted @ 2020-07-08 23:13 MissRong 阅读(261) 评论(0) 推荐(0) |

摘要:Spark 2.x管理与开发-Spark HA的实现(二)基于Zookeeper的Standby Masters 前言: 基于Zookeeper与Hadoop类似 (1)复习Zookeeper: Zookeeper相当于一个数据库(相当稳定的),可将集群的信息都放入Zookeeper当中。 另外,Z 阅读全文

posted @ 2020-07-08 22:55 MissRong 阅读(172) 评论(0) 推荐(0) |

摘要:Spark 2.x管理与开发-Spark HA的实现(一)基于文件系统的单点恢复 因为主从架构,所以会有单点故障 先将之前的完全分布式集群停掉: [root@bigdata111 sbin]# ./stop-all.sh 基于文件系统(文件目录)的单点恢复 本质:还是一个主节点,创建一个恢复目录,保 阅读全文

posted @ 2020-07-08 22:29 MissRong 阅读(145) 评论(0) 推荐(0) |

摘要:Spark 2.x管理与开发-Spark的安装与部署(三)完全分布式安装、启动 先将之前的伪分布式集群停掉: [root@bigdata111 sbin]# ./stop-all.sh 1)在伪分布式搭建成功的基础上,修改主节点的slaves文件: [root@bigdata111 ~]# cd / 阅读全文

posted @ 2020-07-08 22:06 MissRong 阅读(77) 评论(0) 推荐(0) |

摘要:Spark 2.x管理与开发-Spark的安装与部署(二)伪分布式安装、启动 只有一台节点、模拟出分布式环境。Master和Worker放在一个节点上。 之前安装Hadoop的时候,我一般都将安装包啥的存入/opt/module 或/opt/software路径下 从现在起,将关于Spark的安装包 阅读全文

posted @ 2020-07-08 18:57 MissRong 阅读(106) 评论(0) 推荐(0) |

摘要:Spark 2.x管理与开发-Spark的安装与部署(一)概述+虚拟机设置+准备工作 一、Spark的安装与部署概述 搭建Spark环境时注意的: 1)伪分布式:一台服务器,Master和Worker放在一起 2)分布式:多台服务器 3)主从架构会出现单点故障问题,解决-HA Spark的安装部署方 阅读全文

posted @ 2020-07-08 18:32 MissRong 阅读(115) 评论(0) 推荐(0) |

该文被密码保护。

posted @ 2020-07-04 11:59 MissRong 阅读(0) 评论(0) 推荐(0) |

摘要:Spark 2.x管理与开发-Spark的体系结构 官方的一张图: 我自己的一张图: Spark可以运行在Yarn上,如果使用yarn,我们的资源管理、任务调度等工作都交给Yarn。 Spark也可以有自己的调度。 Worker:从节点-每个计算节点上资源和任务管理者。他只负责管理一个节点,不负责管 阅读全文

posted @ 2020-07-01 23:25 MissRong 阅读(94) 评论(0) 推荐(0) |

该文被密码保护。

posted @ 2020-07-01 23:15 MissRong 阅读(0) 评论(0) 推荐(0) |

博客园  ©  2004-2025
浙公网安备 33010602011771号 浙ICP备2021040463号-3