中文词频统计

1.下载一中文长篇小说，并转换成UTF-8编码。

2.使用jieba库，进行中文词频统计，输出TOP20的词及出现次数。

3.排除一些无意义词、合并同一词。

4.对词频统计结果做简单的解读。

import jieba
#打开UTF-8编码的长篇小说
news = open ('aaa.txt','r',encoding='utf-8').read()
print(news)


#.使用jieba库，进行中文词频统计
words=list(jieba.cut(news))
print(words)

exp={'\n','。'}

dict={}

keys=set(words)-exp

for i in keys:
    if len(i)>1:
        dict[i]=words.count(i)
its=list(dict.items())
print('字典元组列表:',its,'\n')

its.sort(key=lambda x:x[1],reverse=True)
print('排序后出现次数前二十的单词:')
for i in range(20):
   print(its[i])

我所选的小说是盗墓笔记，由于小说的琐碎词比较多，选出来的结果并不理想。但是文中的三叔和胖子等主角的名字还是能够筛选出来。还有‘突然’，‘看到’等词语也能显示出他们探险时候的状态。

发表于 2017-09-29 11:33 061江柏良阅读(101) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

中文词频统计

公告