04 2021 档案

05 RDD编程
摘要:8.按字母顺序排序 sortBy(f) 9.按词频排序 sortByKey() 10.结果文件保存 saveAsTextFile(out_url) 代码: lines = sc.textFile('file:///home/hadoop/chapter4-data01.txt') course_re 阅读全文

posted @ 2021-04-18 19:28 拿大刀的犬夜叉 阅读(57) 评论(0) 推荐(0)

RDD练习:词频统计
摘要:一、词频统计: 1.读文本文件生成RDD lines 2.将一行一行的文本分割成单词 words flatmap() 3.全部转换为小写 lower() 4.去掉长度小于3的单词 filter() 5.去掉停用词 6.转换成键值对 map() 7.统计词频 reduceByKey() 二、学生课程分 阅读全文

posted @ 2021-04-05 19:28 拿大刀的犬夜叉 阅读(175) 评论(0) 推荐(0)

导航