Spark RDD基本操作--API介绍和实例

  Spark的主要操作对象是RDD,RDD可以通过多种方式灵活创建,可通过导入外部数据源建立,或者从其他的RDD转化而来。
在Spark程序中必须创建一个SparkContext对象,该对象是Spark程序的入口,负责创建RDD、启动任务等。在启动Spark Shell后,该对象会自动创建,可以通过变量sc进行访问。

  Spark RDD支持两种类型的操作:
动作(action):在数据集上进行运算,返回计算值
转换(transformation): 基于现有的数据集创建一个新的数据集

  以上转换和动作API均有RDD对象(本实例中是textFile)调用:

作为示例,我们选择以Spark安装目录中的“README.md”文件作为数据源新建一个RDD,代码如下:

1、统计文本文件行数

2、统计文本文件中包含字符"a"或字符串"Spark"的文本行数

3、统计文本文件中单词数量

Spark属于MapReduce计算模型,因此也可以实现MapReduce的计算流程,如实现单词统计,可以使用如下的命令实现:

 

  输出单词总数应该是:

  Scala > wordCounts.count() // 输出单词统计结果

 

posted on 2017-07-29 11:09  ostin  阅读(314)  评论(0)    收藏  举报