摘要:
讨论QQ:1586558083 目录 调优概述 原则一:避免创建重复的RDD 一个简单的例子 原则二:尽可能复用同一个RDD 一个简单的例子 原则三:对多次使用的RDD进行持久化 对多次使用的RDD进行持久化的代码示例 Spark的持久化级别 如何选择一种最合适的持久化策略 原则四:尽量避免使用sh 阅读全文
posted @ 2019-06-11 11:44
技术研究与问题解决
阅读(198)
评论(0)
推荐(0)
摘要:
讨论QQ:1586558083 目录 Transformation算子 基本的初始化 一、map、flatMap、mapParations、mapPartitionsWithIndex 1.1 map 1.2 flatMap 1.3 mapPartitions 1.4 mapPartitionsWi 阅读全文
posted @ 2019-06-11 11:43
技术研究与问题解决
阅读(173)
评论(0)
推荐(0)
摘要:
讨论QQ:1586558083 目录 一、Spark中的基本概念 二、Spark的运行流程 2.1 Spark的基本运行流程 三、Spark在不同集群中的运行架构 3.1 Spark on Standalone运行过程 3.2 Spark on YARN运行过程 正文 回到顶部 一、Spark中的基 阅读全文
posted @ 2019-06-11 11:43
技术研究与问题解决
阅读(243)
评论(0)
推荐(0)
摘要:
讨论QQ:1586558083 目录 一、JDK的安装 1.1 上传安装包并解压 1.2 配置环境变量 1.3 验证Java版本 二、配置配置ssh localhost 2.1 检测 2.2 生成私钥和公钥秘钥对 2.3 将公钥添加到authorized_keys 2.4 赋予authorized_ 阅读全文
posted @ 2019-06-11 11:42
技术研究与问题解决
阅读(297)
评论(0)
推荐(0)
摘要:
讨论QQ:1586558083 目录 一、概述 二、广播变量broadcast variable 2.1 为什么要将变量定义成广播变量? 2.2 广播变量图解 2.3 如何定义一个广播变量? 2.4 如何还原一个广播变量? 2.5 定义广播变量需要的注意点? 2.6 注意事项 三、累加器 3.1 为 阅读全文
posted @ 2019-06-11 11:41
技术研究与问题解决
阅读(193)
评论(0)
推荐(0)
摘要:
讨论QQ:1586558083 目录 一、RDD的概述 1.1 什么是RDD? 1.2 RDD的属性 1.3 WordCount粗图解RDD 二、RDD的创建方式 2.1 通过读取文件生成的 2.2 通过并行化的方式创建RDD 2.3 其他方式 三、RDD编程API 3.1 Transformati 阅读全文
posted @ 2019-06-11 11:39
技术研究与问题解决
阅读(358)
评论(0)
推荐(0)
摘要:
讨论QQ:1586558083 目录 一、下载Spark安装包 1、从官网下载 2、从微软的镜像站下载 3、从清华的镜像站下载 二、安装基础 三、Spark安装过程 1、上传并解压缩 2、为安装包创建一个软连接 3、进入spark/conf修改配置文件 4、配置环境变量 四、启动 1、先启动zook 阅读全文
posted @ 2019-06-11 11:37
技术研究与问题解决
阅读(201)
评论(0)
推荐(0)
摘要:
讨论QQ:1586558083 目录 一、官网介绍 1、什么是Spark 二、Spark的四大特性 1、高效性 2、易用性 3、通用性 4、兼容性 三、Spark的组成 四、应用场景 正文 回到顶部 一、官网介绍 1、什么是Spark 官网地址:http://spark.apache.org/ Ap 阅读全文
posted @ 2019-06-11 09:25
技术研究与问题解决
阅读(163)
评论(0)
推荐(0)
浙公网安备 33010602011771号