随笔分类 -  Spark

摘要:转自:http://www.cnblogs.com/tgzhu/p/5818374.html Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架,最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一,与Hadoop和Storm 阅读全文
posted @ 2018-07-23 19:32 Mayny# 阅读(20254) 评论(1) 推荐(3)
摘要:转自:https://blog.csdn.net/u011564172/article/details/53310530 概要 RDD是为了处理迭代算法和数据发掘应运而生的,keep数据在内存,显著提升性能。 RDD基于lineage实现容错,而不是shared state的update。 简介 背 阅读全文
posted @ 2018-07-18 14:31 Mayny# 阅读(436) 评论(0) 推荐(0)
摘要:1.Spark架构 分布式spark应用中的组件 在分布式环境下,Spark集群采用的是主/从结构。在一个Spark集群中,有一个节点负责中央协调,调度各个分布式工作节点。这个中央协调节点被称为驱动器(Driver)节点。与之对应的工作节点被称为执行器(executor)节点。驱动器节点可以和大量的 阅读全文
posted @ 2018-07-13 16:29 Mayny# 阅读(794) 评论(0) 推荐(0)