08 2019 档案
摘要:0. Shuffle概述 要理解什么是Shuffle,首先介绍大数据与分布式。我们知道大数据的存储是分布式存储,大数据的计算框架是分布式的计算框架。分布式必然存在数据的交互传输,简言之Shuffle就是分布式中数据交互传输的过程。 如下图所示,Stage 0的输出数据需要经过shuffle Writ
阅读全文
摘要:在介绍Spark中的任务和资源之前先解释几个名词: Dirver Program:运行Application的main函数(用户提交的jar包中的main函数)并新建SparkContext实例的程序,称为驱动程序,通常用SparkContext代表驱动程序(任务的驱动程序)。 Cluster Ma
阅读全文
摘要:Spark的应用程序是通过spark-submit提交到Spark集群上运行的,那么spark-submit到底提交了什么,集群是怎样调度运行的,下面一一详解。 0. spark-submit提交任务 0.1 启动脚本解析 分析spark-submit脚本源码可知最终该命令执行./bin/spark
阅读全文
摘要:本文大量参考:https://www.cnblogs.com/lfs2640666960/p/9297176.html 概述 JVM是JRE的一部分。它是一个虚构出来的计算机,是通过在实际的计算机上仿真模拟各种计算机功能来实现的。JVM有自己完善的硬件架构,如处理器、堆栈、寄存器等,还具有相应的指令
阅读全文
摘要:1. Scala中的函数 在Scala中,函数是“头等公民”,就和数字一样。可以在变量中存放函数,即:将函数作为变量的值(值函数)。 2. scala中的匿名函数,即没有函数名称的函数,匿名函数常作为高阶函数的参数使用 (x: Int) => x*3 =>使用场景小结: a. 用于匿名函数中连接函数
阅读全文
摘要:apply1. 面向对象的基本概念: 把数据及对数据的操作方法放在一起,作为一个相互依存的整体 对象,面向对象的三大特征:封装、多态、继承 2. scala类的定义 · class Emploee(name: String, age: Int) *scala中定义类时无访问限制符public | p
阅读全文
摘要:1. Scala语言的特点 a. 多范式编程语言,面向对象(抽象、封装)和函数式(过程、结果)编程 b. 代码简洁 ==>可读性较差 c. 代码会被变异成Java字节码,运行在JVM上 2. Scala语言基础 a. 变量修饰符 var :修饰的变量在整个生命周期内可被重新赋值 val :类似于ja
阅读全文

浙公网安备 33010602011771号