中文词频统计及词云制作


1.中软国际华南区技术总监曾老师还会来上两次课,同学们希望曾老师讲些什么内容?(认真想一想回答)


听说Python和人工智能有很深的挂钩,希望曾老师能讲下Python在人工智能方面的应用。


2.中文分词


2.1下载一中文长篇小说,并转换成UTF-8编码。

 

 


2.2使用jieba库,进行中文词频统计,输出TOP20的词及出现次数。


import
jieba book = "吞噬星空.txt" txt = open(book,"r",encoding='utf-8').read() words = jieba.cut(txt) counts = {} for word in words: if len(word) == 1: continue else: counts[word] = counts.get(word,0) + 1 items = list(counts.items()) items.sort(key=lambda x:x[1],reverse=True) for i in range(20): word,count = items[i] print("{0:<10}{1:>5}".format(word,count))

 

posted on 2017-09-25 15:56  09陈雨雨  阅读(214)  评论(0编辑  收藏  举报