07 2020 档案
摘要:首先是两种排序方法,归并排序和快速排序。 归并排序的思想就是分治,分而治之,分的策略是:将一个数组从中间切开,左右两部分继续对半分,直到分到只包含一个元素即可。 合的策略是:将两个各自排好序的数组合并为一个新的排好序的数组。为什么说两个数组是各自排好序的呢?从最小的单元--一个元素看起,显然是有序的
阅读全文
摘要:RDD加上结构,比如说类名,就可以变成DataFrame,DataFrame,将每一类同这一类的类名绑定在一起就可以称为DataSet. spark sql 就是来处理dataframe和dataset这样的结构数据的。 spark sql使用的时候需要提供spark session环境。 // S
阅读全文
摘要:首先介绍一下RDD. RDD是spark中最基础的逻辑抽象,代码中是一个抽象类。它代表不可变,可分区,里面的元素可并行计算的集合。 不可变代表RDD作为计算逻辑的一部分,绝对不允许被修改。 可分区代表,RDD作为承载数据流的类型,必须要在大数据时代实现并行处理的前提条件 分区。 里面的元素可并行计算
阅读全文