中文词频统计

我对其进行统计的小说是余华的《在细雨中呼喊》,这是一本关于回忆的书。

import jieba

txt=open('xiyu.txt','r',encoding='utf-8').read()  
words=list(jieba.cut(txt))  

exp={'','没有','他们','我们','看到','那个','这个','时候','那时','以后','知道','一个','已经','起来','一样','告诉','来到','看着','这样','后来'}

keys=set(words)-exp  

dic={}
for w in keys:
    if len(w)>1:    
        dic[w]=words.count(w)   

wc=list(dic.items())   
wc.sort(key=lambda x:x[1],reverse=True)   

for i in range(20):   
    print(wc[i])

从词汇出现的频率分析,可以看出本书主要回忆的是作者及作者的家人们过去的事情。

posted @ 2017-09-29 17:02  011赖颖璇  阅读(143)  评论(0编辑  收藏  举报