scala实验3 (2)

一、在 spark-shell 中读取 Linux 系统本地文件“/home/hadoop/test1.txt”，然后统计出文件的行数：

1、首先启动spark-shell进入Spark-shell模式：（进入spark目录下后输入命令 bin/spark-shell 启动spark-shell模式）

2、加载text文件（spark创建sc，可以加载本地文件和HDFS文件创建RDD）

注意：加载HDFS文件和本地文件都是使用textFile，区别是添加前缀(hdfs://和file://)进行标识。

3、获取RDD文件textFile所有项

二、在 spark-shell 中读取 HDFS 系统文件“/home/hadoop/test.csv（也可以是txt文件）”（如果该文件不存在，请先创建），然后，统计出文件的行数：

posted @ 2022-01-07 16:10 韦德·沃兹阅读(45) 评论(0) 收藏举报

刷新页面返回顶部

韦德·沃兹