作业四:1. RDD创建 2. RDD操作

一.RDD操作

1.从本地文件系统中加载数据创建RDD

lines=sc.textFile("file:///文件路径").foreach(print)

 

 2.从HDFS加载数据创建RDD

启动HDFS
start-all.sh
查看HDFS文件
hdfs dfs -ls 查看的文件目录

 

 上传文件到HDFS:

hdfs dfs -put 本地文件路径 HDFS目的路径

 查看HDFS文件:

hdfs dfs -cat 文件名称

 

 

 HDFS加载数据创建RDD

lines=sc.textFile("hdfs://localhost:9000/user/hadoop/eng.txt").foreach(print)

 

 不知道端口号的时候可以在core-site.xml文件下查询得到

 

 停止hdfs

 

 

通过并行集合(列表)创建RDD

 

 

 

 

二、 RDD操作

1.filter(func)

 

 2.map(func)

 

posted @ 2022-03-22 16:37  LYH2022  阅读(33)  评论(0编辑  收藏  举报