随笔分类 -  Spark

摘要:概述 Accumulator即累加器,与Mapreduce counter的应用场景差不多,都能很好地观察task在运行期间的数据变化,Spark中的Accumulator各task可以对Accumulator值进行累加,但是最终的返回值只能在Driver端获取,同时原生支持Int和Double类型 阅读全文
posted @ 2016-12-05 21:53 MOBIN 阅读(3726) 评论(0) 推荐(2)
摘要:摘要 在Spark中,有Yarn-Client和Yarn-Cluster两种模式可以运行在Yarn上,通常Yarn-Cluster适用于生产环境,而Yarn-Clientr更适用于交互,调试模式,以下是它们的区别 Spark插拨式资源管理 Spark支持Yarn,Mesos,Standalone三种 阅读全文
posted @ 2016-09-09 17:05 MOBIN 阅读(17412) 评论(4) 推荐(6)
摘要:摘要: RDD:弹性分布式数据集,是一种特殊集合 ‚ 支持多种来源 ‚ 有容错机制 ‚ 可以被缓存 ‚ 支持并行操作,一个RDD代表一个分区里的数据集RDD有两种操作算子: Transformation(转换):Transformation属于延迟计算,当一个RDD转换成另一个RDD时并没有立即进行 阅读全文
posted @ 2016-04-20 21:20 MOBIN 阅读(26002) 评论(0) 推荐(8)
摘要:摘要: RDD:弹性分布式数据集,是一种特殊集合 ‚ 支持多种来源 ‚ 有容错机制 ‚ 可以被缓存 ‚ 支持并行操作,一个RDD代表一个分区里的数据集 RDD有两种操作算子: Transformation(转换):Transformation属于延迟计算,当一个RDD转换成另一个RDD时并没有立即进 阅读全文
posted @ 2016-04-10 01:51 MOBIN 阅读(77771) 评论(3) 推荐(24)
摘要:摘要: Sprak Streaming属于Saprk API的扩展,支持实时数据流(live data streams)的可扩展,高吞吐(hight-throughput) 容错(fault-tolerant)的流处理。可以接受来自KafKa,Flume,ZeroMQ Kinesis Twitter 阅读全文
posted @ 2016-04-02 21:09 MOBIN 阅读(8497) 评论(0) 推荐(3)
摘要:一旦用户的应用打包后,就可以使用bin/spark-submit脚本来启动,此脚本就会为Spark和它的依赖安排配置环境变量,还支持不同的集群管理和部署模式: 阅读全文
posted @ 2016-03-17 23:40 MOBIN 阅读(1033) 评论(0) 推荐(0)