Spark - 随笔分类 - 苏黎世的从前

RDD动作算子(action)

摘要：RDD的动作算子 reduce(func) 通过func函数聚集RDD中的所有元素，这个功能必须是可交换且可并联的。（符合结合律和交换律），func输入为两个元素，返回为一个元素。 def add(x,y): return x+y sc.parallelize([1, 2, 3, 4, 5]).re 阅读全文

posted @ 2019-04-05 10:44 苏黎世的从前阅读(403) 评论(0) 推荐(0)

RDD转换算子(transformantion)

摘要：RDD算子作用于RDD上的Operation分为转换(transformantion)和动作(action)。 Spark中的所有“转换”都是惰性的，在执行“转换”操作，并不会提交Job，只有在执行“动作”操作，所有operation才会被提交到cluster中真正的被执行。这样可以大大提升系统的阅读全文

posted @ 2019-03-29 15:48 苏黎世的从前阅读(477) 评论(0) 推荐(0)

Spark RDD简介

摘要：什么是RDD？ Resilient Distributed Dataset RDD是弹性分布式数据集一种容错的并行数据结构 RDD是一种数据抽象，只读的，分区记录集合在此之上，提供了丰富的操作用来处理RDD RDD是Spark的基石，也是Spark的灵魂 Rdd是Spark最核心最精髓的部分，S 阅读全文

posted @ 2019-03-29 12:01 苏黎世的从前阅读(230) 评论(0) 推荐(0)

使用Pycharm开发WordCount程序

摘要：创建工程设置虚拟机Python解释器环境注意：解释器应该选择：/home/hadoop/anaconda3/bin/python3.7，这样依赖的库都有了。创建一个python文件，取名为WordCount 开发WordCount程序 from pyspark import SparkConf 阅读全文

posted @ 2019-03-23 09:53 苏黎世的从前阅读(605) 评论(0) 推荐(0)

pyspark的用法

摘要：pyspark h 查看用法 pyspark h Usage: pyspark [options] 常见的[options] 如下表：输入pyspark h 查看各参数的定义查看sc变量不指定 master时 pyspark (查看sc变量) sc 指定 master时 pyspark mas 阅读全文

posted @ 2019-03-22 22:45 苏黎世的从前阅读(7490) 评论(1) 推荐(1)

Spark-submit用法

摘要：spark submit h 查看用法 spark submit h Usage: spark submit [options] [app arguments] 常见的[options] 如下表： “ master”参数解释如下表：蒙特卡罗（Monte Carlo）方法计算圆周率正方形内部有一个阅读全文

posted @ 2019-03-22 21:57 苏黎世的从前阅读(6941) 评论(0) 推荐(0)

搭建Spark环境(Standalone部署模式)

摘要：搭建Spark的单独（Standalone）部署模式 Standalone单独部署（伪分布或全分布），不需要有依赖资源管理器。主要学习单独（Standalone）部署中的伪分布模式的搭建。环境个人笔记本安装。内存：至少4G 硬盘：至少空余40G 操作系统: 64位 Windows系统 VMw 阅读全文

posted @ 2019-03-22 20:31 苏黎世的从前阅读(845) 评论(0) 推荐(0)

苏黎世的从前

倾我所能、尽我所有。

随笔分类 - Spark

公告