中文词频统计


中文分词

  1. 下载一中文长篇小说,并转换成UTF-8编码。
  2. 使用jieba库,进行中文词频统计,输出TOP20的词及出现次数。
  3. 排除一些无意义词、合并同一词。
  4. 对词频统计结果做简单的解读。
    import jieba
    
    txt=open('藏海花 .txt','r',encoding='utf-8').read()
    words=list(jieba.cut(txt))#结巴分组
    
    keys=set(words)#划分为单词
    
    dic={}#设置词典
    for w in keys:
        if len(w)>1:
            dic[w]=words.count(w)
    
    wc=list(dic.items())#转化为列表
    wc.sort(key=lambda x:x[1],reverse=True)
    
    for i in range(20):
        print(wc[i])
    === RESTART: C:/Users/ASDF/AppData/Local/Programs/Python/Python36/词频分析.py ===
    Building prefix dict from the default dictionary ...
    Loading model from cache C:\Users\ASDF\AppData\Local\Temp\jieba.cache
    Loading model cost 1.016 seconds.
    Prefix dict has been built succesfully.('一个', 775)
    ('我们', 708)
    ('他们', 645)
    ('胖子', 643)
    ('这个', 554)
    ('没有', 549)
    ('什么', 445)
    ('知道', 400)
    ('东西', 397)
    ('自己', 353)
    ('看到', 331)
    ('这些', 324)
    ('不是', 320)
    ('这里', 311)
    ('地方', 277)
    ('发现', 270)
    ('事情', 266)
    ('已经', 257)
    ('如果', 240)
    ('就是', 231)

     主人公之一是胖子,他们去一些地方,需要发现些事情,并对其进行猜测。

posted @ 2017-09-29 19:42  201506050096谢阳  阅读(127)  评论(0编辑  收藏  举报