4.RDD操作
一、 RDD创建
从本地文件系统中加载数据创建RDD

从HDFS加载数据创建RDD
启动hdfs

上传、查看文件

加载

停止hdfs

通过并行集合(列表)创建RDD
输入列表

字符串

numpy生成数组

二、 RDD操作
转换操作
filter(func)
显式定义函数

lambda函数

map(func)
显式定义函数

行动操作
foreach(print)
foreach(lambda a:print(a.upper())

collect()

count()
take(n)
reduce()
数值型的rdd元素做累加

与reduceByKey区别



浙公网安备 33010602011771号