随笔分类 -  spark

spark
spark技术总结(1)
摘要:1. 请描述spark RDD原理与特征 RDD为Resilient Distributed Datasets缩写,译文弹性分布式数据集。 他是spark系统中的核心数据模型之一,另外一个是DAG模型。 它是“只读”,“分区”的数据集合。其类内部有5个部分组成: 1. 一组partition par 阅读全文

posted @ 2018-06-19 17:21 xf-xrh-xf 阅读(401) 评论(0) 推荐(0)

Spark RDD 窄依赖研究
摘要:1.. 简介 spark从RDD依赖上来说分为窄依赖和宽依赖。 其中可以这样区分是哪种依赖:当父RDD的一个partition被子RDD的多个partitions引用到的时候则说明是宽依赖,否则为窄依赖。 宽依赖会触发shuffe,宽依赖也是一个job钟不同stage的分界线。 本篇文章主要讨论一下 阅读全文

posted @ 2017-12-15 15:23 xf-xrh-xf 阅读(321) 评论(0) 推荐(0)

[会装]Spark standalone 模式的安装
摘要:1. 简介 以standalone模式安装spark集群bin运行demo。 2.环境和介质准备 2.1 下载spark介质,根据现有hadoop的版本选择下载,我目前的环境中的hadoop版本是2.6,所以下载spark-2.0.0-bin-hadoop2.6.tgz 当然你也可以下载源码自行根据 阅读全文

posted @ 2016-10-26 14:38 xf-xrh-xf 阅读(245) 评论(0) 推荐(0)

导航