中文词频统计

.中文分词

下载一中文长篇小说，并转换成UTF-8编码。
使用jieba库，进行中文词频统计，输出TOP20的词及出现次数。

代码如下：

import jieba

day=open('text.txt','r',encoding='utf-8').read()


for i in '\n,.\()。，123"？':
    day=day.replace(i,' ')

gushi=jieba.cut(day)
k=list(gushi)
#print(k)

exc={' ','我','你','的','了','他','它','也','是', '着', '在','她','（','…','就','会','）','地'}
dict={}
keys=set(k)
keys=keys-exc

print(keys)

for i in keys:
    
    dict[i]=k.count(i)
#print(dict)
wc=list(dict.items())
wc.sort(key=lambda x:x[1],reverse=True)
print(wc)
for i in range(20):
    print(wc[i])

运行结果：

3.排除一些无意义词、合并同一词。

代码如下：

import jieba

day=open('text.txt','r',encoding='utf-8').read()


for i in '\n,.\()。，123"？':
    day=day.replace(i,' ')

gushi=list(jieba.cut(day))

#print(k)

dict={}

for k in gushi:
    if len(k)==1:
        continue
    else:
        dict[k]=dict.get(k,0)+1

wc=list(dict.items())
wc.sort(key=lambda x:x[1],reverse=True)
print(wc)
for i in range(20):
    print(wc[i])

运行结果：

posted on 2017-09-29 09:52 046余博智阅读(136) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

余博智

中文词频统计

导航

公告