中文词频统计

中文分词

下载一中文长篇小说，并转换成UTF-8编码。
使用jieba库，进行中文词频统计，输出TOP20的词及出现次数。
排除一些无意义词、合并同一词。

对词频统计结果做简单的解读。

import jieba

txt=open('藏海花 .txt','r',encoding='utf-8').read()
words=list(jieba.cut(txt))#结巴分组

keys=set(words)#划分为单词

dic={}#设置词典
for w in keys:
    if len(w)>1:
        dic[w]=words.count(w)

wc=list(dic.items())#转化为列表
wc.sort(key=lambda x:x[1],reverse=True)

for i in range(20):
    print(wc[i])

=== RESTART: C:/Users/ASDF/AppData/Local/Programs/Python/Python36/词频分析.py ===
Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\ASDF\AppData\Local\Temp\jieba.cache
Loading model cost 1.016 seconds.
Prefix dict has been built succesfully.('一个', 775)
('我们', 708)
('他们', 645)
('胖子', 643)
('这个', 554)
('没有', 549)
('什么', 445)
('知道', 400)
('东西', 397)
('自己', 353)
('看到', 331)
('这些', 324)
('不是', 320)
('这里', 311)
('地方', 277)
('发现', 270)
('事情', 266)
('已经', 257)
('如果', 240)
('就是', 231)

主人公之一是胖子，他们去一些地方，需要发现些事情，并对其进行猜测。

posted @ 2017-09-29 19:42 201506050096谢阳阅读(127) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

20150605096谢阳

中文词频统计

公告