07 2019 档案
摘要:一、设备条件 * 阿里云服务器(Master) 1 * 本机(Slave) 1 二、软件条件 jdk 1.8:https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html spark 2.4.
阅读全文
摘要:一、变量 1、三种变量修饰符 val 定义 immutable variable(不修改 常量) var 定义 immutable variable(可修改 变量) lazy val (惰性赋值的常量):不直接算出结果,在系统第一次调用 lazy val 的时候计算结果 * 可以不显示指定变量的类型
阅读全文
摘要:一、RDD是什么 RDD,全称为 Resilient Distributed Datasets,是一个容错的、并行的数据结构,可以让用户显式地将数据存储到磁盘和内存中,并能控制数据的分区。 RDD是只读的、分区记录的集合。RDD只能基于在稳定物理存储中的数据集和其他已有的RDD上执行确定性操作来创建
阅读全文
摘要:一、Spark简介 Spark是一个快速且通用的集群计算平台。 二、特点: 1、Spark 快速 扩充了Mapreduce计算模型 Spark是基于内存的计算 2、Spark 通用 Spark的设计容纳了其他分布式系统的拥有的功能。 批处理、迭代式计算、交互查询和流处理等。 3、Spark 高度开放
阅读全文

浙公网安备 33010602011771号