中文词频统计
中文分词
- 下载一中文长篇小说,并转换成UTF-8编码。
 - 使用jieba库,进行中文词频统计,输出TOP20的词及出现次数。
 - 排除一些无意义词、合并同一词。
 - 对词频统计结果做简单的解读。
 
#使用jieba库 import jieba #下载一中文长篇小说,并转换成UTF-8编码 fo=open('shen.txt','r',encoding='utf-8') str=fo.read() fo.close() for i in ',。!"': str=str.replace(i,' ') #排除一些无意义词、合并同一词 exp={'','\n\n'} words=list(jieba.cut(str,cut_all=True)) #进行中文词频统计 dic={} keys=set(words)-exp for i in keys: if len(i)>1: dic[i]=words.count(i) d=list(dic.items()) d.sort(key=lambda x:x[1],reverse=True) #输出TOP20的词及出现次数。 for i in range(20): print(d[i])
结果如图:

从结果中可以看出,这是一篇关于靠渡船而生的祖父和孙女在山边小镇的故事。
                    
                
                
            
        
浙公网安备 33010602011771号