中文分词以及词频统计绘图

import jieba
import matplotlib.pyplot as plt
from pylab import *
mpl.rcParams['font.sans-serif'] = ['SimHei']

words=list(jieba.cut('沈杰钊 需求分析 熟悉C++，java，负责软件测试，需求分析,李宗晓 /'
                         '技术担当  熟悉算法、数据挖掘 软件开发,陈锐群 代码测试 python、机器学习、推荐系统，/'
                         '需求分析，软件测试方泽慧 需求分析 前端，ps，ar、pr气氛良好，各有特长,项目介绍：/'
                         '制作一个购票小程序，该小程序可以根据客户曾经的购票历史和评分记录自动推荐用户感兴趣的内容以及热门的热点项目，/'
                         '类似于大数据的推荐系统'))
dic={}
exp={',',' ','。'}
keys=set(words)-exp

for i in keys:
    if len(i)>1:
        dic[i]=words.count(i)
wa=list(dic.items())

wa.sort(key=lambda x:x[1],reverse=True)#排序
print(wa)
wa=dict(wa)
plt.bar(wa.keys(),wa.values())
plt.xticks(rotation=90)
plt.show()

一个关于小组介绍的中文分词词频统计，以及其条形图，代码如上，图片如下：

posted @ 2018-04-12 05:23 一朵包纸阅读(659) 评论(1) 收藏举报

刷新页面返回顶部

一朵包纸

中文分词以及词频统计绘图

公告