5.RDD操作综合实例
一、词频统计
1.准备文件 文章地址:https://baijiahao.baidu.com/s?id=1590095643409783178&wfr=spider&for=pc
2.下载小说或长篇新闻稿
3.上传到hdfs上

A.分步骤实现
- 读文件创建RDD
- 分词
- 排除大小写,标点符号,停用词,长度小于2的词
![]()
![]()
- 统计词频
- 排序
- 输出到文件
![]()
- 查看结果
![]()
B.一句话实现



二、求Top值
网盘下载payment.txt文件,通过RDD操作实现选出最大支付额的用户。



- 丢弃不合规范的行:
- 空行
- 少数据项
- 缺失数据
![]()
![]()
![]()
- 按支付金额排序
- 取出Top3









浙公网安备 33010602011771号