摘要: RDD的分区器 Spark目前支持Hash分区和Range分区,用户也可以自定义分区,Hash分区为当前的默认分区,Spark中分区器直接决定了RDD中分区的个数、RDD中每条数据经过Shuffle过程属于哪个分区和Reduce的个数。 注意: (1)只有Key-Value类型的RDD才有分区器的, 阅读全文
posted @ 2020-02-26 16:53 盛夏群岛 阅读(325) 评论(0) 推荐(0)
摘要: RDD的创建 1)从内存中创建 从集合中创建RDD,Spark主要提供了两种函数:parallelize和makeRDD val raw: RDD[Int] = sc.parallelize(1 to 16) val raw: RDD[Int] = sc.makeRDD(1 to 16) 2)从外部 阅读全文
posted @ 2020-02-26 15:27 盛夏群岛 阅读(217) 评论(0) 推荐(0)
摘要: local模式 概述 local模式就是在一台计算机上运行spark程序,通常用于在本机上练手和测试,它将线程映射为worker。 1)local: 所有计算都运行在一个线程当中,没有任何并行计算,通常我们在本机执行一些测试代码,或者练手,就用这种模式; 2)local[K]: 指定使用几个线程来运 阅读全文
posted @ 2020-02-25 21:43 盛夏群岛 阅读(772) 评论(0) 推荐(0)
摘要: 减少代码重复 所有的函数都被分割成通用部分,它们在每次函数调用中都相同,以及非通用部分,在不同的函 数调用中可能会变化。通用部分是函数体,而非通用部分必须由参数提供。当你把函数值用做参数时,算法的非通用部分就是它代表的某些其它算法。在这种函数的每一次调用中,你都可以把不同的函数值作为参数传入,于是被 阅读全文
posted @ 2020-02-25 21:03 盛夏群岛 阅读(334) 评论(0) 推荐(0)
摘要: spark为什么比mapreduce快 mapreduce的数据处理过程是:把数据从磁盘读到内存,在内存中完成计算,再写回磁盘。下一个mr程序要继续对这批数据进行处理,又要重复这一过程。有多少个mr程序,就有多少次读磁盘和写磁盘的过程,效率低下。 spark的数据处理过程是:把数据读到内存之后,在多 阅读全文
posted @ 2020-02-25 12:10 盛夏群岛 阅读(680) 评论(0) 推荐(0)
摘要: 这里所有算子均只适用于pairRDD。pairRDD的数据类型是(k,v)形式的键值对; PartitionBy(Partitioner) 对pairRDD进行分区操作,如果原有的partioner和现有的partioer是一致的话就不进行分区, 否则会生成ShuffleRDD,即会产生shuffl 阅读全文
posted @ 2020-02-24 17:54 盛夏群岛 阅读(257) 评论(0) 推荐(0)
摘要: 当程序变得庞大时,你需要一些方法把它们分割成更小的,更易管理的片段。为了分割控制流,Scala 提供了所有有经验的程序员都熟悉的方式:把代码分割成函数。实际上,Scala 提供了许多 Java 中没有的定义函数的方式。除了作为对象成员函数的方法之外,还有内嵌在函数中的函数, 函数文本和函数值。本章带 阅读全文
posted @ 2020-02-24 13:56 盛夏群岛 阅读(325) 评论(0) 推荐(0)
摘要: map(func) 返回一个新的RDD,该RDD由每一个输入元素经过func函数转换后组成。有多少个元素,func就被执行多少次。 mapPartitions(func) 类似于map,但是,map函数是独立地在RDD的每一个分区上运行,因此在类型为T的RDD上运行时,func的函数类型必须是Ite 阅读全文
posted @ 2020-02-23 14:04 盛夏群岛 阅读(247) 评论(0) 推荐(0)
摘要: 几乎所有的 Scala 的控制结构都会产生某个值。这是函数式语言所采用的方式,程序被看成是计算值的活动,因此程序的控件也应当这么做。另外,指令式语言经常具有三元操作符(如 C,C++和 Java 的?:操作符),表现得就像 if,却产生值。Scala 采用了这种三元操作符模型,但是把它称为 if。 阅读全文
posted @ 2020-02-21 17:42 盛夏群岛 阅读(170) 评论(0) 推荐(0)
摘要: 什么是RDD RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象(其实是计算抽象)。代码中是一个抽象类,它代表一个不可变、可分区、里面的元素可并行计算的集合。 不可变:数据一旦写入,不可更改;联想到java 中的String类型, 阅读全文
posted @ 2020-02-20 21:04 盛夏群岛 阅读(489) 评论(0) 推荐(0)