Spark - 随笔分类 - MOBIN

Spark Accumulators

摘要：概述 Accumulator即累加器，与Mapreduce counter的应用场景差不多，都能很好地观察task在运行期间的数据变化，Spark中的Accumulator各task可以对Accumulator值进行累加，但是最终的返回值只能在Driver端获取，同时原生支持Int和Double类型阅读全文

posted @ 2016-12-05 21:53 MOBIN 阅读(3726) 评论(0) 推荐(2)

Spark Yarn-cluster与Yarn-client

摘要：摘要在Spark中，有Yarn-Client和Yarn-Cluster两种模式可以运行在Yarn上，通常Yarn-Cluster适用于生产环境，而Yarn-Clientr更适用于交互，调试模式，以下是它们的区别 Spark插拨式资源管理 Spark支持Yarn,Mesos,Standalone三种阅读全文

posted @ 2016-09-09 17:05 MOBIN 阅读(17412) 评论(4) 推荐(6)

Spark常用函数讲解之Action操作

摘要：摘要： RDD：弹性分布式数据集，是一种特殊集合 ‚ 支持多种来源 ‚ 有容错机制 ‚ 可以被缓存 ‚ 支持并行操作，一个RDD代表一个分区里的数据集RDD有两种操作算子： Transformation（转换）：Transformation属于延迟计算，当一个RDD转换成另一个RDD时并没有立即进行阅读全文

posted @ 2016-04-20 21:20 MOBIN 阅读(26002) 评论(0) 推荐(8)

Spark函数详解系列之RDD基本转换

摘要：摘要： RDD：弹性分布式数据集，是一种特殊集合 ‚ 支持多种来源 ‚ 有容错机制 ‚ 可以被缓存 ‚ 支持并行操作，一个RDD代表一个分区里的数据集 RDD有两种操作算子： Transformation（转换）：Transformation属于延迟计算，当一个RDD转换成另一个RDD时并没有立即进阅读全文

posted @ 2016-04-10 01:51 MOBIN 阅读(77771) 评论(3) 推荐(24)

Spark Streaming--实战篇

摘要：摘要： Sprak Streaming属于Saprk API的扩展，支持实时数据流（live data streams）的可扩展，高吞吐（hight-throughput）容错（fault-tolerant）的流处理。可以接受来自KafKa,Flume,ZeroMQ Kinesis Twitter 阅读全文

posted @ 2016-04-02 21:09 MOBIN 阅读(8497) 评论(0) 推荐(3)

spark-submit

摘要：一旦用户的应用打包后，就可以使用bin/spark-submit脚本来启动，此脚本就会为Spark和它的依赖安排配置环境变量，还支持不同的集群管理和部署模式：阅读全文

posted @ 2016-03-17 23:40 MOBIN 阅读(1033) 评论(0) 推荐(0)

MOBIN

离开舒适区，坚持不懈，持续学习！！！

随笔分类 - Spark

公告