中文词频统计

 

 .中文分词

  1. 下载一中文长篇小说,并转换成UTF-8编码。
  2. 使用jieba库,进行中文词频统计,输出TOP20的词及出现次数。

 代码如下:

import jieba

day=open('text.txt','r',encoding='utf-8').read()


for i in '\n,.\()。,123"?':
    day=day.replace(i,' ')

gushi=jieba.cut(day)
k=list(gushi)
#print(k)

exc={' ','','','','','','','','', '', '','','','','','','',''}
dict={}
keys=set(k)
keys=keys-exc

print(keys)

for i in keys:
    
    dict[i]=k.count(i)
#print(dict)
wc=list(dict.items())
wc.sort(key=lambda x:x[1],reverse=True)
print(wc)
for i in range(20):
    print(wc[i])

 

 

 运行结果:

 

 

 

3.排除一些无意义词、合并同一词。

代码如下:

 

import jieba

day=open('text.txt','r',encoding='utf-8').read()


for i in '\n,.\()。,123"?':
    day=day.replace(i,' ')

gushi=list(jieba.cut(day))

#print(k)

dict={}

for k in gushi:
    if len(k)==1:
        continue
    else:
        dict[k]=dict.get(k,0)+1

wc=list(dict.items())
wc.sort(key=lambda x:x[1],reverse=True)
print(wc)
for i in range(20):
    print(wc[i])

 

 

运行结果:

 

posted on 2017-09-29 09:52  046余博智  阅读(136)  评论(0编辑  收藏  举报

导航