随笔分类 -  Spark

大数据轻量级处理框架
摘要:前言:Spark编程模型两个主要抽象,一个是弹性分布式数据集RDD,它是一种特殊集合,支持多种数据源,可支持并行计算,可缓存;另一个是两种共享变量,支持并行计算的广播变量和累加器。 1.RDD介绍 Spark大数据处理平台建立在RDD之上,RDD是Spark的核心概念,最主要的抽象之一。RDD和Sp 阅读全文
posted @ 2018-09-14 16:17 知识小书包 阅读(587) 评论(0) 推荐(0)
摘要:前言:要学习spark程序开发,建议先学习spark-shell交互式学习,加深对spark程序开发的理解。spark-shell提供了一种学习API的简单方式,以及一个能够进行交互式分析数据的强大工具,可以使用scala编写(scala运行与Java虚拟机可以使用现有的Java库)或使用Pytho 阅读全文
posted @ 2018-09-13 17:26 知识小书包 阅读(12451) 评论(0) 推荐(0)
摘要:在Spark中有map和mapPartitions算子,处理数据上,有一些区别 主要区别: map是对rdd中的每一个元素进行操作; mapPartitions则是对rdd中的每个分区的迭代器进行操作 MapPartitions的优点: 如果是普通的map,比如一个partition中有1万条数据。 阅读全文
posted @ 2018-09-13 15:46 知识小书包 阅读(16095) 评论(0) 推荐(0)
摘要:1.Spark 属性Spark应用程序的运行是通过外部参数来控制的,参数的设置正确与否,好与坏会直接影响应用程序的性能,也就影响我们整个集群的性能。参数控制有以下方式:(1)直接设置在SparkConf,通过参数的形式传递给SparkContext,达到控制目的。(通过set()方法传入key-va 阅读全文
posted @ 2018-09-12 15:34 知识小书包 阅读(4445) 评论(0) 推荐(0)
摘要:题目:通过子线程读取每个文件,并统计单词数,将单词数返回给主线程相加得出总单词数 小徐看世界,世界如此多娇: http://www.cnblogs.com/schoolbag/diary/2018/03/13/8563019.html 阅读全文
posted @ 2018-03-13 22:31 知识小书包 阅读(712) 评论(0) 推荐(0)