随笔分类 -  spark

大数据积累
摘要:Spark Streaming 一、 介绍 Spark Streaming是Spark核心API的一个扩展,可以实现高吞吐量的、具备容错机制的实时流数据的处理。支持从多种数据源获取数据,包括kafka、flume、twitter等。 Spark的各个子框架核心都是Spark Core。 Spark  阅读全文
posted @ 2019-02-25 08:23 局外人~~ 阅读(459) 评论(0) 推荐(0)
摘要:Spark -- WordCount程序 阅读全文
posted @ 2019-02-23 21:46 局外人~~ 阅读(209) 评论(0) 推荐(0)
摘要:Spark-RDD 模型 以及运行原理 数据:在内存中计算,数组、list、set spark:RDD是弹性分布性数据集合,并且是基于分区的只读记录。 RDD:操作类型(转换-Transformaction 和 行动-Action) 转换:Transformaction:根据原有的RDD创建一个新的 阅读全文
posted @ 2019-02-23 07:29 局外人~~ 阅读(602) 评论(0) 推荐(0)
摘要:Spark运行模式 一:Spark 运行架构介绍 相关术语概念详解: Application:指的是用户编写的Spark应用程序,包含了一个Driver功能的代码和分布在集群中多节点上运行的Executor代码。 Driver:Spark中的Driver就是运行Application的main()函 阅读全文
posted @ 2019-02-23 07:08 局外人~~ 阅读(795) 评论(0) 推荐(0)
摘要:spark -- Spark RDD Transformation和Action 目录 Transformation算子 基本的初始化 一、map、flatMap、mapParations、mapPartitionsWithIndex 1.1map 1.2flatMap 1.3mapPartitio 阅读全文
posted @ 2018-11-12 14:53 局外人~~ 阅读(293) 评论(0) 推荐(0)