1.下载一中文长篇小说,并转换成UTF-8编码。
2.使用jieba库,进行中文词频统计,输出TOP20的词及出现次数。
3.排除一些无意义词、合并同一词。
4.对词频统计结果做简单的解读。
import jieba #打开UTF-8编码的长篇小说 news = open ('aaa.txt','r',encoding='utf-8').read() print(news) #.使用jieba库,进行中文词频统计 words=list(jieba.cut(news)) print(words) exp={'\n','。'} dict={} keys=set(words)-exp for i in keys: if len(i)>1: dict[i]=words.count(i) its=list(dict.items()) print('字典元组列表:',its,'\n') its.sort(key=lambda x:x[1],reverse=True) print('排序后出现次数前二十的单词:') for i in range(20): print(its[i])
我所选的小说是盗墓笔记,由于小说的琐碎词比较多,选出来的结果并不理想。但是文中的三叔和胖子等主角的名字还是能够筛选出来。还有‘突然’,‘看到’等词语也能显示出他们探险时候的状态。