上一页 1 2 3 4 5 6 7 ··· 28 下一页
摘要: 目录 一、JDK的安装 1.1 上传安装包并解压 1.2 配置环境变量 1.3 验证Java版本 二、配置配置ssh localhost 2.1 检测 2.2 生成私钥和公钥秘钥对 2.3 将公钥添加到authorized_keys 2.4 赋予authorized_keys文件600的权限 2.5 阅读全文
posted @ 2021-01-11 14:24 大浪不惊涛 阅读(134) 评论(0) 推荐(0) 编辑
摘要: 目录 一、概述 二、广播变量broadcast variable 2.1 为什么要将变量定义成广播变量? 2.2 广播变量图解 2.3 如何定义一个广播变量? 2.4 如何还原一个广播变量? 2.5 定义广播变量需要的注意点? 2.6 注意事项 三、累加器 3.1 为什么要将一个变量定义为一个累加器 阅读全文
posted @ 2021-01-11 11:54 大浪不惊涛 阅读(119) 评论(0) 推荐(0) 编辑
摘要: 1. RDD 的设计与运行原理 Spark 的核心是建立在统一的抽象 RDD 之上,基于 RDD 的转换和行动操作使得 Spark 的各个组件可以无缝进行集成,从而在同一个应用程序中完成大数据计算任务。 在实际应用中,存在许多迭代式算法和交互式数据挖掘工具,这些应用场景的共同之处在于不同计算阶段之间 阅读全文
posted @ 2021-01-08 18:03 大浪不惊涛 阅读(320) 评论(0) 推荐(0) 编辑
摘要: RDD 弹性分布式数据集 RDD概述 RDD论文 中文版 : http://spark.apachecn.org/paper/zh/spark-rdd.html RDD产生背景 为了解决开发人员能在大规模的集群中以一种容错的方式进行内存计算,提出了 RDD 的概念,而当前的很多框架对迭代式算法场景与 阅读全文
posted @ 2021-01-08 17:55 大浪不惊涛 阅读(522) 评论(0) 推荐(0) 编辑
摘要: 任何Spark程序都是SparkContext开始的,SparkContext的初始化需要一个SparkConf对象,SparkConf包含了Spark集群配置的各种参数。 初始化后,就可以使用SparkContext对象所包含的各种方法来创建和操作RDD和共享变量。 Scala: 1 2 3 4 阅读全文
posted @ 2021-01-08 17:32 大浪不惊涛 阅读(659) 评论(1) 推荐(0) 编辑
摘要: 目录 一、RDD的概述 1.1 什么是RDD? 1.2 RDD的属性 1.3 WordCount粗图解RDD 二、RDD的创建方式 2.1 通过读取文件生成的 2.2 通过并行化的方式创建RDD 2.3 其他方式 三、RDD编程API 3.1 Transformation 3.2 Action 3. 阅读全文
posted @ 2021-01-07 22:01 大浪不惊涛 阅读(120) 评论(0) 推荐(0) 编辑
摘要: 目录 一、下载Spark安装包 1、从官网下载 2、从微软的镜像站下载 3、从清华的镜像站下载 二、安装基础 三、Spark安装过程 1、上传并解压缩 2、为安装包创建一个软连接 3、进入spark/conf修改配置文件 4、配置环境变量 四、启动 1、先启动zookeeper集群 2、在启动HDF 阅读全文
posted @ 2021-01-07 19:32 大浪不惊涛 阅读(122) 评论(0) 推荐(0) 编辑
摘要: 目录 一、官网介绍 1、什么是Spark 二、Spark的四大特性 1、高效性 2、易用性 3、通用性 4、兼容性 三、Spark的组成 四、应用场景 正文 回到顶部 一、官网介绍 1、什么是Spark 官网地址:http://spark.apache.org/ Apache Spark™是用于大规 阅读全文
posted @ 2021-01-07 16:15 大浪不惊涛 阅读(91) 评论(0) 推荐(0) 编辑
摘要: IDEA中给main方法的args参数 以下为代码 public class StringToNumber { public static void main(String[] args) { double aver = 0, sum = 0, item = 0; boolean enable = 阅读全文
posted @ 2021-01-06 17:25 大浪不惊涛 阅读(4317) 评论(0) 推荐(0) 编辑
摘要: 概述:Spark 程序开发,调试和运行,intellij idea开发Spark java程序。分两部分,第一部分基于intellij idea开发Spark实例程序并在intellij IDEA中运行Spark程序.第二部分,将开发程序提交到Spark local或者hadoop YARN集群运行 阅读全文
posted @ 2021-01-06 17:23 大浪不惊涛 阅读(446) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 ··· 28 下一页