Spark - 随笔分类 - 知识小书包

Spark之编程模型RDD

摘要：前言：Spark编程模型两个主要抽象，一个是弹性分布式数据集RDD，它是一种特殊集合，支持多种数据源，可支持并行计算，可缓存；另一个是两种共享变量，支持并行计算的广播变量和累加器。 1.RDD介绍 Spark大数据处理平台建立在RDD之上，RDD是Spark的核心概念，最主要的抽象之一。RDD和Sp 阅读全文

posted @ 2018-09-14 16:17 知识小书包阅读(604) 评论(0) 推荐(0)

Spark之spark shell

摘要：前言：要学习spark程序开发，建议先学习spark-shell交互式学习，加深对spark程序开发的理解。spark-shell提供了一种学习API的简单方式，以及一个能够进行交互式分析数据的强大工具，可以使用scala编写（scala运行与Java虚拟机可以使用现有的Java库）或使用Pytho 阅读全文

posted @ 2018-09-13 17:26 知识小书包阅读(12485) 评论(0) 推荐(0)

MapPartition和Map的区别

摘要：在Spark中有map和mapPartitions算子，处理数据上，有一些区别主要区别： map是对rdd中的每一个元素进行操作； mapPartitions则是对rdd中的每个分区的迭代器进行操作 MapPartitions的优点：如果是普通的map，比如一个partition中有1万条数据。阅读全文

posted @ 2018-09-13 15:46 知识小书包阅读(16130) 评论(0) 推荐(0)

Spark配置参数的三种方式

摘要：1.Spark 属性Spark应用程序的运行是通过外部参数来控制的，参数的设置正确与否，好与坏会直接影响应用程序的性能，也就影响我们整个集群的性能。参数控制有以下方式：（1）直接设置在SparkConf，通过参数的形式传递给SparkContext，达到控制目的。（通过set()方法传入key-va 阅读全文

posted @ 2018-09-12 15:34 知识小书包阅读(4486) 评论(0) 推荐(0)

Scala学习笔记之Actor多线程与线程通信的简单例子

摘要：题目：通过子线程读取每个文件，并统计单词数，将单词数返回给主线程相加得出总单词数小徐看世界，世界如此多娇: http://www.cnblogs.com/schoolbag/diary/2018/03/13/8563019.html 阅读全文

posted @ 2018-03-13 22:31 知识小书包阅读(729) 评论(0) 推荐(0)

小书包

问渠那得清如许，为有源头活水来

随笔分类 - Spark

公告