Spark - 文章分类(第4页) - MissRong

Spark 2.x管理与开发-Spark Core-Spark的算子（五）RDD基础练习

摘要：Spark 2.x管理与开发-Spark的算子（五）RDD基础练习练习1： //通过并行化生成rdd val rdd1 = sc.parallelize(List(5, 6, 4, 7, 3, 8, 2, 9, 1, 10)) //对rdd1里的每一个元素乘2然后排序 val rdd2 = rdd 阅读全文

posted @ 2020-07-12 10:57 MissRong 阅读(117) 评论(0) 推荐(0) |

Spark 2.x管理与开发-Spark Core-Spark的算子（四）RDD的特性（3）RDD的依赖关系和Spark任务中的Stage

摘要：Spark 2.x管理与开发-Spark的算子（四）RDD的特性（3）RDD的依赖关系和Spark任务中的Stage 一、RDD的依赖关系 RDD和它依赖的父RDD（s）的关系有两种不同的类型，即窄依赖（narrow dependency）和宽依赖（wide dependency）。窄依赖指的是每阅读全文

posted @ 2020-07-12 10:43 MissRong 阅读(91) 评论(0) 推荐(0) |

Spark 2.x管理与开发-Spark Core-Spark的算子（四）RDD的特性（2）RDD的Checkpoint（检查点）机制：容错机制

摘要：Spark 2.x管理与开发-Spark的算子（四）RDD的特性（2）RDD的Checkpoint（检查点）机制：容错机制检查点（本质是通过将RDD写入Disk做检查点）是为了通过lineage（血统）做容错的辅助，lineage过长会造成容错成本过高，这样就不如在中间阶段做检查点容错，如果之后有阅读全文

posted @ 2020-07-12 10:30 MissRong 阅读(102) 评论(0) 推荐(0) |

Spark 2.x管理与开发-Spark Core-Spark的算子（四）RDD的特性（1）RDD的缓存机制

摘要：Spark 2.x管理与开发-Spark的算子（四）RDD的特性（1）RDD的缓存机制 RDD的缓存机制默认将RDD的数据缓存在内存中（1）作用：提高性能（2）使用：persist或者cache函数标识RDD可以被缓存 cache方法本质调用了persist RDD通过persist方法或cac 阅读全文

posted @ 2020-07-12 10:11 MissRong 阅读(112) 评论(0) 推荐(0) |

Spark 2.x管理与开发-Spark Core-Spark的算子（三）Action*

摘要：Spark 2.x管理与开发-Spark的算子（三）Action* 动作含义 reduce(func)：聚合通过func函数聚集RDD中的所有元素，这个功能必须是课交换且可并联的 collect() 在驱动程序中，以数组的形式返回数据集的所有元素 count() 返回RDD的元素个数 first 阅读全文

posted @ 2020-07-12 09:57 MissRong 阅读(71) 评论(0) 推荐(0) |

Spark 2.x管理与开发-Spark Core-Spark的算子（二）Transformation*

摘要：Spark 2.x管理与开发-Spark的算子（二）Transformation* Transformation：延时计算lazy修饰，不会立刻触发计算。（重点） RDD中的所有转换都是延迟加载的，也就是说，它们并不会直接计算结果。相反的，它们只是记住这些应用到基础数据集（例如一个文件）上的转换动作阅读全文

posted @ 2020-07-12 09:55 MissRong 阅读(110) 评论(0) 推荐(0) |

Spark 2.x管理与开发-Spark Core-Spark的算子（一）RDD基础*

摘要：Spark 2.x管理与开发-Spark的算子（一）RDD基础* 1）什么是RDD？ RDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象（也就是Spark处理的数据，都是RDD），它代表一个不可变、可分区、里面的元素可并行计算的集阅读全文

posted @ 2020-07-09 22:41 MissRong 阅读(140) 评论(0) 推荐(0) |

Spark 2.x管理与开发-Spark Core-Spark运行机制及原理分析

摘要：Spark 2.x管理与开发-Spark运行机制及原理分析 1、WordCount执行的流程分析需要看源码一步一步看 2、Spark提交任务的流程阅读全文

posted @ 2020-07-09 22:20 MissRong 阅读(90) 评论(0) 推荐(0) |

Spark 2.x管理与开发-Spark Core-执行Spark Demo程序（三）在IDEA、Eclipse中编写WordCount程序

摘要：Spark 2.x管理与开发-执行Spark Demo程序（三）在IDEA、Eclipse中编写WordCount程序（1）需要的jar包：$SPARK_HOME/jars/*.jar （2）创建Scala Project，并创建Scala Object、或者Java Class （3）书写源代码阅读全文

posted @ 2020-07-09 00:06 MissRong 阅读(98) 评论(0) 推荐(0) |

Spark 2.x管理与开发-Spark Core-执行Spark Demo程序（二）使用Spark Shell

摘要：Spark 2.x管理与开发-执行Spark Demo程序（二）使用Spark Shell spark-shell是Spark自带的交互式Shell程序，方便用户进行交互式编程，用户可以在该命令行下用scala编写spark程序。操作过程概述：（1）启动Spark Shell：spark-she 阅读全文

posted @ 2020-07-08 23:48 MissRong 阅读(271) 评论(0) 推荐(0) |

Spark 2.x管理与开发-Spark Core-执行Spark Demo程序（一）使用Spark submit工具

摘要：Spark 2.x管理与开发-执行Spark Demo程序（一）使用Spark submit工具准备：以下操作都是在伪分布式的基础上进行的（因为全分布式状态下容易发生内存溢出状况）。将之前开启的各个进程都停掉，修改配置文件到伪分布式的状态。 [root@bigdata111 conf]# vi 阅读全文

posted @ 2020-07-08 23:13 MissRong 阅读(261) 评论(0) 推荐(0) |

Spark 2.x管理与开发-Spark Core-Spark HA的实现（二）基于Zookeeper的Standby Masters

摘要：Spark 2.x管理与开发-Spark HA的实现（二）基于Zookeeper的Standby Masters 前言：基于Zookeeper与Hadoop类似（1）复习Zookeeper： Zookeeper相当于一个数据库（相当稳定的），可将集群的信息都放入Zookeeper当中。另外，Z 阅读全文

posted @ 2020-07-08 22:55 MissRong 阅读(172) 评论(0) 推荐(0) |

Spark 2.x管理与开发-Spark Core-Spark HA的实现（一）基于文件系统的单点恢复

摘要：Spark 2.x管理与开发-Spark HA的实现（一）基于文件系统的单点恢复因为主从架构，所以会有单点故障先将之前的完全分布式集群停掉： [root@bigdata111 sbin]# ./stop-all.sh 基于文件系统（文件目录）的单点恢复本质：还是一个主节点，创建一个恢复目录，保阅读全文

posted @ 2020-07-08 22:29 MissRong 阅读(145) 评论(0) 推荐(0) |

Spark 2.x管理与开发-Spark Core-Spark的安装与部署（三）完全分布式安装、启动

摘要：Spark 2.x管理与开发-Spark的安装与部署（三）完全分布式安装、启动先将之前的伪分布式集群停掉： [root@bigdata111 sbin]# ./stop-all.sh 1）在伪分布式搭建成功的基础上，修改主节点的slaves文件： [root@bigdata111 ~]# cd / 阅读全文

posted @ 2020-07-08 22:06 MissRong 阅读(77) 评论(0) 推荐(0) |

Spark 2.x管理与开发-Spark Core-Spark的安装与部署（二）伪分布式安装、启动

摘要：Spark 2.x管理与开发-Spark的安装与部署（二）伪分布式安装、启动只有一台节点、模拟出分布式环境。Master和Worker放在一个节点上。之前安装Hadoop的时候，我一般都将安装包啥的存入/opt/module 或/opt/software路径下从现在起，将关于Spark的安装包阅读全文

posted @ 2020-07-08 18:57 MissRong 阅读(106) 评论(0) 推荐(0) |

Spark 2.x管理与开发-Spark Core-Spark的安装与部署（一）概述+虚拟机设置+准备工作

摘要：Spark 2.x管理与开发-Spark的安装与部署（一）概述+虚拟机设置+准备工作一、Spark的安装与部署概述搭建Spark环境时注意的： 1）伪分布式：一台服务器，Master和Worker放在一起 2）分布式：多台服务器 3）主从架构会出现单点故障问题，解决-HA Spark的安装部署方阅读全文

posted @ 2020-07-08 18:32 MissRong 阅读(115) 评论(0) 推荐(0) |

Spark 2.x管理与开发-Spark Core-【Eclipse上编写WordCount程序】

该文被密码保护。

posted @ 2020-07-04 11:59 MissRong 阅读(0) 评论(0) 推荐(0) |

Spark 2.x管理与开发-Spark Core-Spark的体系结构

摘要：Spark 2.x管理与开发-Spark的体系结构官方的一张图：我自己的一张图： Spark可以运行在Yarn上，如果使用yarn,我们的资源管理、任务调度等工作都交给Yarn。 Spark也可以有自己的调度。 Worker：从节点-每个计算节点上资源和任务管理者。他只负责管理一个节点，不负责管阅读全文

posted @ 2020-07-01 23:25 MissRong 阅读(94) 评论(0) 推荐(0) |

Spark 2.x管理与开发-Spark Core-Spark初识* ✔