随笔 - 59  文章 - 0  评论 - 536  0
共 6 页: 上一页 1 2 3 4 5 6 下一页
  2018年4月3日
摘要:文章标题 A Tale of Three Apache Spark APIs: RDDs, DataFrames, and Datasets 且谈Apache Spark的API三剑客:RDD、DataFrame和Dataset When to use them and why 什么时候用他们,为什 阅读全文
posted @ 2018-04-03 20:52 虾皮 阅读 (175) 评论 (0) 编辑
摘要:关于转载一些 Spark 官方的文档以及 DataBricks 公司博文,本系列基本是中英双语,主要是为了提高自己的英语水平。 文章分类 spark databricks A Tale of Three Apache Spark APIs: RDDs, DataFrames, and Dataset 阅读全文
posted @ 2018-04-03 20:38 虾皮 阅读 (324) 评论 (0) 编辑
摘要:中文名:《设计数据密集型应用》 英文名:《Designing Data-Intensive Applications》 作者: Martin Kleppmann 英文电子书:Designing Data-Intensive Applications 中文翻译书:设计数据密集型应用 阅读全文
posted @ 2018-04-03 11:08 虾皮 阅读 (3514) 评论 (0) 编辑
  2018年4月2日
摘要:文章正文 Spark主要是由Scala语言开发,为了方便和其他系统集成而不引入scala相关依赖,部分实现使用Java语言开发,例如External Shuffle Service等。总体来说,Spark是由JVM语言实现,会运行在JVM中。然而,Spark除了提供Scala/Java开发接口外,还 阅读全文
posted @ 2018-04-02 17:30 虾皮 阅读 (1340) 评论 (0) 编辑
摘要:文章正文 通过文章“Spark 核心概念RDD”我们知道,Spark的核心是根据RDD来实现的,Spark Scheduler则为Spark核心实现的重要一环,其作用就是任务调度。Spark的任务调度就是如何组织任务去处理RDD中每个分区的数据,根据RDD的依赖关系构建DAG,基于DAG划分Stag 阅读全文
posted @ 2018-04-02 16:51 虾皮 阅读 (382) 评论 (0) 编辑
摘要:文章正文 对于分布式系统来说,网络是最基本的一环,其设计的好坏直接影响到整个分布式系统的稳定性及可用性。为此,Spark专门独立出基础网络模块spark-network,为上层RPC、Shuffle数据传输、RDD Block同步以及资源文件传输等提供可靠的网络服务。在spark-1.6以前,RPC 阅读全文
posted @ 2018-04-02 15:39 虾皮 阅读 (259) 评论 (0) 编辑
摘要:文章正文 RDD全称叫做弹性分布式数据集(Resilient Distributed Datasets),它是一种分布式的内存抽象,表示一个只读的记录分区的集合,它只能通过其他RDD转换而创建,为此,RDD支持丰富的转换操作(如map, join, filter, groupBy等),通过这种转换操 阅读全文
posted @ 2018-04-02 14:15 虾皮 阅读 (524) 评论 (0) 编辑
摘要:学习 Spark 中,别人整理不错的文章,转载至本博客,方便自己学习,并按照不同的模块归档整理。每个文章作者能力不同,写文章所处的时间点不同,可能会略有差异,在阅读的同时,注意当时的文章的内容是否已经过时。 文章分类 Spark Core RDD Spark 核心概念RDD RPC Network 阅读全文
posted @ 2018-04-02 14:04 虾皮 阅读 (386) 评论 (0) 编辑
  2018年3月20日
摘要:文章标题 Introducing Apache Spark 2.3 Apache Spark 2.3 介绍 Now Available on Databricks Runtime 4.0 现在可以在Databrcks Runtime 4.0上使用。 作者介绍 Sameer Agarwal, Xiao 阅读全文
posted @ 2018-03-20 17:46 虾皮 阅读 (788) 评论 (0) 编辑
摘要:本章内容: 待整理 参考文献: Spark Release 2.3.0 阅读全文
posted @ 2018-03-20 17:44 虾皮 阅读 (164) 评论 (0) 编辑
共 6 页: 上一页 1 2 3 4 5 6 下一页