4.RDD操作
一、 RDD创建
1.从本地文件系统中加载数据创建RDD

2.从HDFS加载数据创建RDD
启动hdfs

上传文件

查看文件

加载

停止hdfd

3.通过并行集合(列表)创建RDD
输入列表、字符串、生成数组

二、 RDD操作
转换操作
1.filter(func)
传入lambda匿名函数

2.显式定义函数
3.map(func)
显式定义函数
lambda函数

- 字符串分词
- 数字加100
- 固定前缀
- flatMap(func)
- reduceByKey()
- reduceBy(func)





行动操作
1、foreach(print)
foreach(lambda a:print(a.upper())
2、collect()
3、count()
4、take(n)
5、reduce()


数值型的rdd元素做累加与reduceByKey区别
1、reduce,把RDD中的每一个元素拿出来处理并形成一个新的RDD元素。reduceByKey,把RDD中的key相同的一组数据拿出来处理,形成一个RDD里面放的是元组
2、reduce处理数据时有着一对一的特性,而reduceByKey则有着多对一的特性。比如reduce中会把数据集合中每一个元素都处理一次,并且每一个元素都对应着一个输出。而reduceByKey则不同,它会把所有key相同的值处理并且进行归并,其中归并的方法可以自己定义。
浙公网安备 33010602011771号