4.RDD操作
一、 RDD创建
1、从本地文件系统中加载数据创建RDD![]()
2、从HDFS加载数据创建RDD
启动hdfs


上传文件
查看文件

加载

停止hdfs

3、通过并行集合(列表)创建RDD
输入列表



字符串

numpy生成数组
若没有装numpy库,需先执行以下命令再继续操作
sudo apt install python3-pip pip install numpy pip install nose

二、 RDD操作
转换操作
1、map(func)
显式定义函数
lambda函数

2、filter(func)
显式定义函数
lambda函数

行动操作
1、foreach(print)
foreach(lambda a:print(a.upper())

2、collect()


浙公网安备 33010602011771号