Spark RDD基本操作--API介绍和实例
Spark的主要操作对象是RDD,RDD可以通过多种方式灵活创建,可通过导入外部数据源建立,或者从其他的RDD转化而来。
在Spark程序中必须创建一个SparkContext对象,该对象是Spark程序的入口,负责创建RDD、启动任务等。在启动Spark Shell后,该对象会自动创建,可以通过变量sc进行访问。
Spark RDD支持两种类型的操作:
动作(action):在数据集上进行运算,返回计算值
转换(transformation): 基于现有的数据集创建一个新的数据集

以上转换和动作API均有RDD对象(本实例中是textFile)调用:
作为示例,我们选择以Spark安装目录中的“README.md”文件作为数据源新建一个RDD,代码如下:
1、统计文本文件行数


2、统计文本文件中包含字符"a"或字符串"Spark"的文本行数


3、统计文本文件中单词数量
Spark属于MapReduce计算模型,因此也可以实现MapReduce的计算流程,如实现单词统计,可以使用如下的命令实现:


输出单词总数应该是:
Scala > wordCounts.count() // 输出单词统计结果
浙公网安备 33010602011771号