随笔分类 - Spark
摘要:RDD的动作算子 reduce(func) 通过func函数聚集RDD中的所有元素,这个功能必须是可交换且可并联的。(符合结合律和交换律),func输入为两个元素,返回为一个元素。 def add(x,y): return x+y sc.parallelize([1, 2, 3, 4, 5]).re
阅读全文
摘要:RDD算子 作用于RDD上的Operation分为转换(transformantion)和动作(action)。 Spark中的所有“转换”都是惰性的,在执行“转换”操作,并不会提交Job,只有在执行“动作”操作,所有operation才会被提交到cluster中真正的被执行。这样可以大大提升系统的
阅读全文
摘要:什么是RDD? Resilient Distributed Dataset RDD是弹性分布式数据集 一种容错的并行数据结构 RDD是一种数据抽象,只读的,分区记录集合 在此之上,提供了丰富的操作用来处理RDD RDD是Spark的基石,也是Spark的灵魂 Rdd是Spark最核心最精髓的部分,S
阅读全文
摘要:创建工程 设置虚拟机Python解释器环境 注意:解释器应该选择:/home/hadoop/anaconda3/bin/python3.7,这样依赖的库都有了。 创建一个python文件,取名为WordCount 开发WordCount程序 from pyspark import SparkConf
阅读全文
摘要:pyspark h 查看用法 pyspark h Usage: pyspark [options] 常见的[options] 如下表: 输入pyspark h 查看各参数的定义 查看sc变量 不指定 master时 pyspark (查看sc变量) sc 指定 master时 pyspark mas
阅读全文
摘要:spark submit h 查看用法 spark submit h Usage: spark submit [options] [app arguments] 常见的[options] 如下表: “ master”参数解释如下表: 蒙特卡罗(Monte Carlo)方法计算圆周率 正方形内部有一个
阅读全文
摘要:搭建Spark的单独(Standalone)部署模式 Standalone单独部署(伪分布或全分布),不需要有依赖资源管理器。主要学习单独(Standalone)部署中的 伪分布模式的搭建。 环境 个人笔记本安装。 内存:至少4G 硬盘:至少空余40G 操作系统: 64位 Windows系统 VMw
阅读全文

浙公网安备 33010602011771号