摘要: 一、词频统计 A. 分步骤实现 1.准备文件 (1)下载小说或长篇新闻稿 (2)上传到hdfs上 2.读文件创建RDD 3.分词 4.(1)标点符号re.split(pattern,str),flatMap(), (2)排除大小写lower(),map() (3)停用词,可网盘下载stopwords 阅读全文
posted @ 2022-03-29 16:41 lokxlok 阅读(69) 评论(0) 推荐(0) 编辑