1.下载一中文长篇小说,并转换成UTF-8编码。

2.使用jieba库,进行中文词频统计,输出TOP20的词及出现次数。

3.排除一些无意义词、合并同一词。

4.对词频统计结果做简单的解读。

import jieba
#打开UTF-8编码的长篇小说
news = open ('aaa.txt','r',encoding='utf-8').read()
print(news)


#.使用jieba库,进行中文词频统计
words=list(jieba.cut(news))
print(words)

exp={'\n',''}

dict={}

keys=set(words)-exp

for i in keys:
    if len(i)>1:
        dict[i]=words.count(i)
its=list(dict.items())
print('字典元组列表:',its,'\n')

its.sort(key=lambda x:x[1],reverse=True)
print('排序后出现次数前二十的单词:')
for i in range(20):
   print(its[i])

 

我所选的小说是盗墓笔记,由于小说的琐碎词比较多,选出来的结果并不理想。但是文中的三叔和胖子等主角的名字还是能够筛选出来。还有‘突然’,‘看到’等词语也能显示出他们探险时候的状态。