4.RDD操作
1. RDD创建
- 从本地文件系统中加载数据创建RDD
- 从HDFS加载数据创建RDD
# 启动HDFS
start-all.sh
# 查看HDFS文件
hdfs dfs -ls 查看的文件目录
# 上传文件到HDFS
hdfs dfs -put 本地文件路径 HDFS目的路径
# 查看HDFS文件
hdfs dfs -cat 文件名称
# HDFS加载数据创建RDD
lines=sc.textFile("hdfs://localhost:9000/user/llc.txt").foreach(print)
![]()


# 停止hdfs
stop-all.sh

- 通过并行集合(列表)创建RDD


2. RDD操作
转换操作
- filter(func)

- map(func)
- 字符串分词

- 数字加100
- 字符串加固定前缀

- flatMap(func)
- 分词

- 单词映射成键值对
- reduceByKey()
- 统计词频,累加
- 乘法法则

- groupByKey()
- 单词分组

- sortByKey()

- sortBy()
- 词频统计按词频排序
- RDD写入文本文件
- 写入本地文件系统,并查看结果


行动操作
- foreach(print)

- foreach(lambda a:print(a.upper()))

- collect()

- count()

- first()

- take(n)

- reduce()
- 数值型的rdd元素做累加


浙公网安备 33010602011771号