中文词频统计
中文分词
1.下载一中文长篇小说,并转换成UTF-8编码。
2.使用jieba库,进行中文词频统计,输出TOP20的词及出现次数。
3.排除一些无意义词、合并同一词。
import jieba s=open('book.txt','r',encoding='utf-8') book=s.read() s.close() print(book) for i in ',.!?:': book=book.replace(i,' ') books=jieba.cut(book) exp={'的','他',} keys=set(books)-exp dic={} for w in keys: if len(w)>1: dic[w]=book.count(w) wc=list(dic.items()) wc.sort(key=lambda x:x[1],reverse=True) for i in range(20): print(wc[i])

4.对词频统计结果做简单的解读。
这篇文章讲的是狐狸和猎人的故事,狐狸死在猎人的子弹下。
浙公网安备 33010602011771号