Spark RDD基本操作--API介绍和实例 - ostin - 博客园

Spark RDD基本操作--API介绍和实例

　　Spark的主要操作对象是RDD，RDD可以通过多种方式灵活创建，可通过导入外部数据源建立，或者从其他的RDD转化而来。
在Spark程序中必须创建一个SparkContext对象，该对象是Spark程序的入口，负责创建RDD、启动任务等。在启动Spark Shell后，该对象会自动创建，可以通过变量sc进行访问。

　　Spark RDD支持两种类型的操作：
动作（action）：在数据集上进行运算，返回计算值
转换（transformation）：基于现有的数据集创建一个新的数据集

　　以上转换和动作API均有RDD对象(本实例中是textFile)调用：

作为示例，我们选择以Spark安装目录中的“README.md”文件作为数据源新建一个RDD，代码如下：

1、统计文本文件行数

2、统计文本文件中包含字符"a"或字符串"Spark"的文本行数

3、统计文本文件中单词数量

Spark属于MapReduce计算模型，因此也可以实现MapReduce的计算流程，如实现单词统计，可以使用如下的命令实现：

　　输出单词总数应该是：

　　Scala > wordCounts.count() // 输出单词统计结果

posted on 2017-07-29 11:09 ostin 阅读(314) 评论(0) 收藏举报

刷新页面返回顶部

导航

公告