随笔分类 -  Spark

摘要:RDD的动作算子 reduce(func) 通过func函数聚集RDD中的所有元素,这个功能必须是可交换且可并联的。(符合结合律和交换律),func输入为两个元素,返回为一个元素。 def add(x,y): return x+y sc.parallelize([1, 2, 3, 4, 5]).re 阅读全文
posted @ 2019-04-05 10:44 苏黎世的从前 阅读(403) 评论(0) 推荐(0)
摘要:RDD算子 作用于RDD上的Operation分为转换(transformantion)和动作(action)。 Spark中的所有“转换”都是惰性的,在执行“转换”操作,并不会提交Job,只有在执行“动作”操作,所有operation才会被提交到cluster中真正的被执行。这样可以大大提升系统的 阅读全文
posted @ 2019-03-29 15:48 苏黎世的从前 阅读(477) 评论(0) 推荐(0)
摘要:什么是RDD? Resilient Distributed Dataset RDD是弹性分布式数据集 一种容错的并行数据结构 RDD是一种数据抽象,只读的,分区记录集合 在此之上,提供了丰富的操作用来处理RDD RDD是Spark的基石,也是Spark的灵魂 Rdd是Spark最核心最精髓的部分,S 阅读全文
posted @ 2019-03-29 12:01 苏黎世的从前 阅读(230) 评论(0) 推荐(0)
摘要:创建工程 设置虚拟机Python解释器环境 注意:解释器应该选择:/home/hadoop/anaconda3/bin/python3.7,这样依赖的库都有了。 创建一个python文件,取名为WordCount 开发WordCount程序 from pyspark import SparkConf 阅读全文
posted @ 2019-03-23 09:53 苏黎世的从前 阅读(605) 评论(0) 推荐(0)
摘要:pyspark h 查看用法 pyspark h Usage: pyspark [options] 常见的[options] 如下表: 输入pyspark h 查看各参数的定义 查看sc变量 不指定 master时 pyspark (查看sc变量) sc 指定 master时 pyspark mas 阅读全文
posted @ 2019-03-22 22:45 苏黎世的从前 阅读(7490) 评论(1) 推荐(1)
摘要:spark submit h 查看用法 spark submit h Usage: spark submit [options] [app arguments] 常见的[options] 如下表: “ master”参数解释如下表: 蒙特卡罗(Monte Carlo)方法计算圆周率 正方形内部有一个 阅读全文
posted @ 2019-03-22 21:57 苏黎世的从前 阅读(6941) 评论(0) 推荐(0)
摘要:搭建Spark的单独(Standalone)部署模式 Standalone单独部署(伪分布或全分布),不需要有依赖资源管理器。主要学习单独(Standalone)部署中的 伪分布模式的搭建。 环境 个人笔记本安装。 内存:至少4G 硬盘:至少空余40G 操作系统: 64位 Windows系统 VMw 阅读全文
posted @ 2019-03-22 20:31 苏黎世的从前 阅读(845) 评论(0) 推荐(0)