2016年1月15日

Spark学习之编程进阶——累加器与广播(5)

摘要: Spark学习之编程进阶——累加器与广播(5)1. Spark中两种类型的共享变量:累加器(accumulator)与广播变量(broadcast variable)。累加器对信息进行聚合,而广播变量用来高效分发较大的对象。2. 共享变量是一种可以在Spark任务中使用的特殊类型的... 阅读全文

posted @ 2016-01-15 17:09 岚之山 阅读(355) 评论(0) 推荐(0)

Spark学习之数据读取与保存(4)

摘要: Spark学习之数据读取与保存(4)1. 文件格式Spark对很多种文件格式的读取和保存方式都很简单。如文本文件的非结构化的文件,如JSON的半结构化文件,如SequenceFile结构化文件。通过扩展名进行处理。2. 读取/保存文本文件Python中读取一个文本文件 inp... 阅读全文

posted @ 2016-01-15 16:07 岚之山 阅读(195) 评论(0) 推荐(0)

Spark学习之键值对(pair RDD)操作(3)

摘要: Spark学习之键值对(pair RDD)操作(3)1. 我们通常从一个RDD中提取某些字段(如代表事件时间、用户ID或者其他标识符的字段),并使用这些字段为pair RDD操作中的键。2. 创建pair RDD1)读取本身就是键值对的数据2)一个普通的RDD通过map()转为pa... 阅读全文

posted @ 2016-01-15 16:06 岚之山 阅读(191) 评论(0) 推荐(0)

Spark学习之RDD编程(2)

摘要: Spark学习之RDD编程(2)1. Spark中的RDD是一个不可变的分布式对象集合。2. 在Spark中数据的操作不外乎创建RDD、转化已有的RDD以及调用RDD操作进行求值。3. 创建RDD:1)读取一个外部数据集2)在驱动器程序里分发驱动器程序中的对象集合。4. RDD支持... 阅读全文

posted @ 2016-01-15 15:07 岚之山 阅读(152) 评论(0) 推荐(0)

Spark学习之基础相关组件(1)

摘要: Spark学习之基础相关组件(1)1. Spark是一个用来实现快速而通用的集群计算的平台。2. Spark的一个主要特点是能够在内存中进行计算,因而更快。3. RDD(resilient distributed dataset弹性分布式数据集)表示分布在多个计算节点上可以并行操作... 阅读全文

posted @ 2016-01-15 14:48 岚之山 阅读(188) 评论(0) 推荐(0)

导航