RDD操作

一.RDD创建

1.从本地文件系统中加载数据创建RDD

2.从HDFS加载数据创建RDD 

2.1启动hdfs 2.2上传文件 2.3查看文件 2.4加载 2.5停止hdfs

 

3.通过并行集合(列表)创建RDD

输入列表
字符串
numpy生成数组

二、 RDD操作

转换操作

1.filter(func)  显式定义函数  lambda函数

2.map(func)
显式定义函数
lambda函数:字符串分词, 数字加100  ,客串加固定前缀

3.flatMap(func)

分词,单词映射成键值对

4.reduceByKey()

统计词频,累加,乘法规则

5.groupByKey()

单词分组,查看分组的内容,分组之后做累加 map

6.sortByKey()

词频统计按单词排序

三.行动操作

1.foreach(print)

foreach(lambda a:print(a.upper())

collect(),count(),take(n)

 

posted @ 2022-03-22 16:18  金世佳  阅读(63)  评论(0)    收藏  举报