06 RDD编程

一、词频统计：

读文本文件生成RDD lines

1. 将一行一行的文本分割成单词 words flatmap()

2. 全部转换为小写 lower()

3. 去掉长度小于3的单词 filter()

4. 去掉停用词

5. 转换成键值对 map()

6. 统计词频 reduceByKey()

7. 按字母顺序排序 sortBy(f)

8. 按词频排序 sortByKey()

9. 结果文件保存 saveAsTextFile(out_url)

10.词频结果可视化charts.WordCloud()

11.比较不同框架下（Python、MapReduce、Hive和Spark），实现词频统计思想与技术上的不同，各有什么优缺点.

二、学生课程分数案例

总共有多少学生？map(), distinct(), count()

开设了多少门课程？

每个学生选修了多少门课？map().countByValue()

每门课程有多少个学生选？map(), countByValue()

Tom选修了几门课？每门课多少分？filter(), map() RDD

Tom选修了几门课？每门课多少分？map(),lookup() list

Tom的成绩按分数大小排序。filter(), map(), sortBy()

Tom的平均分。map(),lookup(),mean()

求每门课的选修人数及平均分。combineByKey()

生成（课程，分数）RDD，观察keys(),values()

每个分数+5分。mapValues(func)

求每门课的选修人数及所有人的总分。combineByKey()

求每门课的选修人数及平均分，精确到2位小数。map()，round()

求每门课的选修人数及平均分。用reduceByKey()实现，并比较与combineByKey()的异同

结果可视化。charts,Bar()

posted @ 2021-04-12 19:19 Jay杰阅读(75) 评论(0) 收藏举报

刷新页面返回顶部