盛夏群岛

2020年2月26日

摘要： RDD的分区器 Spark目前支持Hash分区和Range分区，用户也可以自定义分区，Hash分区为当前的默认分区，Spark中分区器直接决定了RDD中分区的个数、RDD中每条数据经过Shuffle过程属于哪个分区和Reduce的个数。注意： (1)只有Key-Value类型的RDD才有分区器的，阅读全文

posted @ 2020-02-26 16:53 盛夏群岛阅读(325) 评论(0) 推荐(0)

RDD(二)——创建

摘要： RDD的创建 1）从内存中创建从集合中创建RDD，Spark主要提供了两种函数：parallelize和makeRDD val raw: RDD[Int] = sc.parallelize(1 to 16) val raw: RDD[Int] = sc.makeRDD(1 to 16) 2）从外部阅读全文

posted @ 2020-02-26 15:27 盛夏群岛阅读(217) 评论(0) 推荐(0)

2020年2月25日

spark安装和使用

摘要： local模式概述 local模式就是在一台计算机上运行spark程序，通常用于在本机上练手和测试，它将线程映射为worker。 1）local: 所有计算都运行在一个线程当中，没有任何并行计算，通常我们在本机执行一些测试代码，或者练手，就用这种模式; 2）local[K]: 指定使用几个线程来运阅读全文

posted @ 2020-02-25 21:43 盛夏群岛阅读(772) 评论(0) 推荐(0)

scala编程(九)——控制抽象

摘要：减少代码重复所有的函数都被分割成通用部分，它们在每次函数调用中都相同，以及非通用部分，在不同的函数调用中可能会变化。通用部分是函数体，而非通用部分必须由参数提供。当你把函数值用做参数时，算法的非通用部分就是它代表的某些其它算法。在这种函数的每一次调用中，你都可以把不同的函数值作为参数传入，于是被阅读全文

posted @ 2020-02-25 21:03 盛夏群岛阅读(334) 评论(0) 推荐(0)

spark计算模型

摘要： spark为什么比mapreduce快 mapreduce的数据处理过程是：把数据从磁盘读到内存，在内存中完成计算，再写回磁盘。下一个mr程序要继续对这批数据进行处理，又要重复这一过程。有多少个mr程序，就有多少次读磁盘和写磁盘的过程，效率低下。 spark的数据处理过程是：把数据读到内存之后，在多阅读全文

posted @ 2020-02-25 12:10 盛夏群岛阅读(680) 评论(0) 推荐(0)

2020年2月24日

RDD(四)——transformation_key_value类型

摘要：这里所有算子均只适用于pairRDD。pairRDD的数据类型是（k，v）形式的键值对； PartitionBy(Partitioner) 对pairRDD进行分区操作，如果原有的partioner和现有的partioer是一致的话就不进行分区，否则会生成ShuffleRDD，即会产生shuffl 阅读全文

posted @ 2020-02-24 17:54 盛夏群岛阅读(257) 评论(0) 推荐(0)

scala编程(八)——函数和闭包

摘要：当程序变得庞大时，你需要一些方法把它们分割成更小的，更易管理的片段。为了分割控制流，Scala 提供了所有有经验的程序员都熟悉的方式：把代码分割成函数。实际上，Scala 提供了许多 Java 中没有的定义函数的方式。除了作为对象成员函数的方法之外，还有内嵌在函数中的函数，函数文本和函数值。本章带阅读全文

posted @ 2020-02-24 13:56 盛夏群岛阅读(325) 评论(0) 推荐(0)

2020年2月23日

RDD(三)——transformation_value类型

摘要： map(func) 返回一个新的RDD，该RDD由每一个输入元素经过func函数转换后组成。有多少个元素，func就被执行多少次。 mapPartitions(func) 类似于map，但是，map函数是独立地在RDD的每一个分区上运行，因此在类型为T的RDD上运行时，func的函数类型必须是Ite 阅读全文

posted @ 2020-02-23 14:04 盛夏群岛阅读(247) 评论(0) 推荐(0)

2020年2月21日

scala编程（七）——内建控制结构

摘要：几乎所有的 Scala 的控制结构都会产生某个值。这是函数式语言所采用的方式，程序被看成是计算值的活动，因此程序的控件也应当这么做。另外，指令式语言经常具有三元操作符（如 C，C++和 Java 的?:操作符），表现得就像 if，却产生值。Scala 采用了这种三元操作符模型，但是把它称为 if。阅读全文

posted @ 2020-02-21 17:42 盛夏群岛阅读(170) 评论(0) 推荐(0)

2020年2月20日

RDD(一)——概述

摘要：什么是RDD RDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象（其实是计算抽象）。代码中是一个抽象类，它代表一个不可变、可分区、里面的元素可并行计算的集合。不可变：数据一旦写入，不可更改；联想到java 中的String类型，阅读全文

posted @ 2020-02-20 21:04 盛夏群岛阅读(489) 评论(0) 推荐(0)

公告