作业四:1. RDD创建 2. RDD操作
一.RDD操作
1.从本地文件系统中加载数据创建RDD
lines=sc.textFile("file:///文件路径").foreach(print)
2.从HDFS加载数据创建RDD
启动HDFS
start-all.sh
查看HDFS文件
hdfs dfs -ls 查看的文件目录
HDFS加载数据创建RDD
lines=sc.textFile("hdfs://localhost:9000/user/hadoop/eng.txt").foreach(print)
不知道端口号的时候可以在core-site.xml文件下查询得到
停止hdfs
通过并行集合(列表)创建RDD
二、 RDD操作
1.filter(func)
2.map(func)