4.RDD操作

  • 一、RDD创建

 

 

 输出查询结果

 

 

 因为我的word.txt文件是随意打的字符 无查找结果 因此此处报错

 

 

 在虚拟环境进行操作

 

 

从HDFS加载数据创建RDD

 

 

 

 

 

 加载

 

 

 停止hdfs

 

 

通过并行集合(列表)创建RDD

    输入列表、字符串、生成数组

 

 

 

  • 二、 RDD操作

转换操作

1. filter(func)
传入lambda匿名函数
显式定义函数

 

2.map(func)
  显式定义函数
  lambda函数

字符串分词

数字加100

客串加固定前缀

 

 

 

 

 

3.flatMap(func)

分词

单词映射成键值对

 

 

 

 

4.reduceByKey() 

统计词频,累加

乘法规则

 

 

 

 

 

 

5.groupByKey()

单词分组

查看分组的内容

分组之后做累加 m

 

 

 

 

 

 

6.sortByKey()

词频统计按单词排序

 

 

7.sortBy()

词频统计按词频排序

posted @ 2022-03-27 11:36  jinx-jinx  阅读(18)  评论(0)    收藏  举报