摘要:Spark存储管理(读书笔记) 转载请注明出处: "http://www.cnblogs.com/BYRans/" Spark的存储管理 RDD的存放和管理都是由Spark的存储管理模块实现和管理的。本文从架构和功能两个角度对Spark的存储管理模块进行介绍。 架构角度 从架构角度,存储管理模块主要
阅读全文
摘要:Spark调度管理(读书笔记) 转载请注明出处: "http://www.cnblogs.com/BYRans/" Spark调度管理 本文主要介绍在单个任务内Spark的调度管理,Spark调度相关概念如下: Task(任务):单个分区数据及上的最小处理流程单元。 TaskSet(任务集):由一组
阅读全文
摘要:Spark基本工作流程及YARN cluster模式原理 转载请注明出处: "http://www.cnblogs.com/BYRans/" Spark基本工作流程 相关术语解释 Spark应用程序相关的几个术语: Worker:集群中任何可以运行Application代码的节点,类似于YARN中的
阅读全文
摘要:Spark官方文档 中文翻译 转载请注明出处: "http://www.cnblogs.com/BYRans/" "1 概述(Overview)" "2 引入Spark(Linking with Spark)" "3 初始化Spark(Initializing Spark)" "3.1 使用Spar
阅读全文
摘要:Spark快速入门 Spark 1.6.0 转载请注明出处: "http://www.cnblogs.com/BYRans/" 快速入门(Quick Start) 本文简单介绍了Spark的使用方式。首先介绍Spark的交互界面的API使用,然后介绍如何使用Java、Scala以及Python编写S
阅读全文
摘要:Spark SQL 官方文档 中文翻译 转载请注明出处: "http://www.cnblogs.com/BYRans/" <br/ "1 概述(Overview)" "2 DataFrames" "2.1 入口:SQLContext(Starting Point: SQLContext...
阅读全文
摘要:Spark SQL 之 Migration Guide "支持的Hive功能" 转载请注明出处: "http://www.cnblogs.com/BYRans/" <br/ Migration Guide 与Hive的兼容(Compatibility with Apache Hive)Spa...
阅读全文
摘要:Spark SQL 之 Performance Tuning & Distributed SQL Engine 转载请注明出处: "http://www.cnblogs.com/BYRans/" <br/ 缓存数据至内存(Caching Data In Memory)Spark SQL可以通过...
阅读全文
摘要:Spark SQL 之 Data Sources 转载请注明出处: "http://www.cnblogs.com/BYRans/" <br/ 数据源(Data Source)Spark SQL的DataFrame接口支持多种数据源的操作。一个DataFrame可以进行RDDs方式的操作,也可...
阅读全文
摘要:Spark SQL 之 DataFrame 转载请注明出处: "http://www.cnblogs.com/BYRans/" <br/ 概述(Overview)Spark SQL是Spark的一个组件,用于结构化数据的计算。Spark SQL提供了一个称为DataFrames的编程抽象,Da...
阅读全文