摘要: 一.Spark上下文 1.作用:连接Spark集群,用户创建RDD、累加器和广播。 2.RDD:Resilient Distributed Dataset,弹性式分布式数据集,有4种类型,如下: a.创建RDD:3类(parallelize:将Seq序列数据转化为RDD、textFile将外部文件转 阅读全文
posted @ 2018-08-28 19:38 Coding_Now 阅读(1147) 评论(0) 推荐(0)
摘要: 1.集群遵循主(Master)-从(Worker)机构:在不同的集群管理器模式下,Master和Worker映射的内容有所不同 在Standalone模式下:主【Master守护进程】和从【Worker守护进程】 在on Yarn模式下:主【ResourceManager守护进程】和从【Nodema 阅读全文
posted @ 2018-08-28 19:31 Coding_Now 阅读(1846) 评论(0) 推荐(0)
摘要: 1.构建独立应用,采用Maven搭建Spark应用程序 a.创建Scala工程(略) b.加载spark-core_2.11依赖库: <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</artif 阅读全文
posted @ 2018-08-28 19:30 Coding_Now 阅读(515) 评论(0) 推荐(0)
摘要: 介绍 1.spark处理大数据的统一分析计算引擎; a.速度:在迭代循环的计算模型下,spark比Hadoop快100倍; b.易用性:spark提供多种语言的API,如Java、Python、Scala、R、SQL等 c.扩展性:在spark RDD基础上,提供一整套的分析计算模型:spark S 阅读全文
posted @ 2018-08-28 18:43 Coding_Now 阅读(443) 评论(0) 推荐(0)