2018年3月20日
摘要: 文章标题 Introducing Apache Spark 2.3 Apache Spark 2.3 介绍 Now Available on Databricks Runtime 4.0 现在可以在Databrcks Runtime 4.0上使用。 作者介绍 Sameer Agarwal, Xiao 阅读全文
posted @ 2018-03-20 17:46 虾皮 阅读(1548) 评论(0) 推荐(0) 编辑
摘要: 本章内容: 待整理 参考文献: Spark Release 2.3.0 阅读全文
posted @ 2018-03-20 17:44 虾皮 阅读(652) 评论(0) 推荐(0) 编辑
摘要: 本章内容: 待整理 参考文献: Apache Spark 2.2.0新特性详细介绍 Introducing Apache Spark 2.2 Apache Spark 2.2.0新特性详细介绍 Introducing Apache Spark 2.2 阅读全文
posted @ 2018-03-20 17:39 虾皮 阅读(962) 评论(0) 推荐(0) 编辑
摘要: 本章内容: 待整理 参考文献: Apache Spark 2.2.0正式发布 Spark Release 2.2.0 Apache Spark 2.2.0正式发布 Spark Release 2.2.0 阅读全文
posted @ 2018-03-20 17:37 虾皮 阅读(513) 评论(0) 推荐(0) 编辑
摘要: 对于一个具有相当技术门槛与复杂度的平台,Spark从诞生到正式版本的成熟,经历的时间如此之短,让人感到惊诧。2009年,Spark诞生于伯克利大学AMPLab,最开初属于伯克利大学的研究性项目。它于2010年正式开源,并于2013年成为了Aparch基金项目,并于2014年成为Aparch基金的顶级 阅读全文
posted @ 2018-03-20 16:15 虾皮 阅读(7392) 评论(0) 推荐(0) 编辑
摘要: resilient [rɪˈzɪljənt] 能复原的;弹回的;有弹性的;能立刻恢复精神的;社会渣滓 dryad ['draɪæd] 森林女神 树妖 present [ˈprɛznt] 目前的;现在的;出席的;[语法学]现在时的 提出;出现;介绍;赠送 tolerant [ˈtɑ:lərənt] 宽 阅读全文
posted @ 2018-03-20 15:53 虾皮 阅读(1239) 评论(0) 推荐(0) 编辑
摘要: 本章内容: 1、功能概述 SparkEnv是Spark的执行环境对象,其中包括与众多Executor执行相关的对象。Spark 对任务的计算都依托于 Executor 的能力,所有的 Executor 都有自己的 Spark 的执行环境 SparkEnv。有了 SparkEnv,就可以将数据存储在存 阅读全文
posted @ 2018-03-20 15:36 虾皮 阅读(5294) 评论(0) 推荐(1) 编辑
摘要: 本章内容: 1、功能描述 本篇文章就要根据源码分析SparkContext所做的一些事情,用过Spark的开发者都知道SparkContext是编写Spark程序用到的第一个类,足以说明SparkContext的重要性;这里先摘抄SparkContext源码注释来简单介绍介绍SparkContext 阅读全文
posted @ 2018-03-20 15:33 虾皮 阅读(35156) 评论(0) 推荐(7) 编辑
摘要: 本章内容: 待整理 参考文献: 《深入理解SPARK:核心思想与源码分析》(第2章) Spark的作业提交及运行流程的异同 阅读全文
posted @ 2018-03-20 15:30 虾皮 阅读(1358) 评论(0) 推荐(0) 编辑
摘要: 本章内容: 待整理 参考文献: 学习Spark——环境搭建(Mac版) 《深入理解SPARK:核心思想与源码分析》(前言及第1章) 搭建Spark源码研读和代码调试的开发环境 Reading Spark Souce Code in IntelliJ IDEA IntelliJ IDEA For Ma 阅读全文
posted @ 2018-03-20 15:27 虾皮 阅读(1510) 评论(0) 推荐(0) 编辑
摘要: 论文内容: 待整理 参考文献: An Architecture for Fast and General Data Processing on Large Clusters. Matei Zaharia 大型集群上的快速和通用数据处理架构 阅读全文
posted @ 2018-03-20 15:00 虾皮 阅读(1374) 评论(0) 推荐(0) 编辑
摘要: 论文内容: 待整理 参考文献: Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing. Matei Zaharia, Mosharaf Chowdhury, Tatha 阅读全文
posted @ 2018-03-20 14:28 虾皮 阅读(1994) 评论(0) 推荐(0) 编辑
摘要: 论文内容: 待整理 参考文献: Spark: Cluster Computing with Working Sets. Matei Zaharia, Mosharaf Chowdhury, Michael J. Franklin, Scott Shenker, Ion Stoica. HotClou 阅读全文
posted @ 2018-03-20 14:22 虾皮 阅读(3567) 评论(0) 推荐(0) 编辑
摘要: 记录自己学习研究 Spark 的探索过程,为后续总结奠定基础。 本文代码研究以 Spark 2.3.0 源代码为基准,如果看本文,请阅读时,下载对应的 Spark 版本。 图1 伯克利的数据分析软件栈BDAS(Berkeley Data Analytics Stack) 这里要先说BDAS(伯克利数 阅读全文
posted @ 2018-03-20 14:08 虾皮 阅读(14482) 评论(0) 推荐(0) 编辑