词云入门

需要的工具

matplotlib

matplotlib,是python的一个绘图库,最终词云的绘制需要用到它。

jieba
jieba,最好用的开源中文分词工具。他最主要的两个功能是分词和关键词的抽取。在词云的生成过程中都需要用到。

wordcloud
wordcloud是一个词云生成器,只要进行相关的配置就能生成相应的词云。

实现过程

实现的过程简单来讲,两步走,1. 提取关键词,2. 生成词云。

import matplotlib.pyplot as plt     #数据可视化
import jieba          #分词
from wordcloud import WordCloud,ImageColorGenerator,STOPWORDS     #词云
import numpy as np  #科学计算
from PIL import Image  #处理图片

#1.读文本,一定是utf-8
text = open('jack.txt','r',encoding='utf-8').read()
#2.分割文本
cut_text = jieba.cut(text)
#3.以空格拼接起来
result = " ".join(cut_text)
#4.背景图片
background=np.array(Image.open("11.jpg")) 
# 5.生成词云
wc = WordCloud(
    font_path='simkai.ttf',     #字体路径
    background_color='white',   #背景颜色
    width=1000,                      #图片尺寸
    height=600,
    max_font_size=50,            #最大字体尺寸
    min_font_size=10,
    mask=background,           #背景图片
    max_words=100,               #最大词语数量
    stopwords=STOPWORDS,       #停止的默认词语
    random_state=50,              #随机角度
)
wc.generate(result)
wc.to_file('jielun.png')    #图片保存

#6.显示图片
plt.figure('jielun')   #图片显示的名字
plt.imshow(wc)
plt.axis('off')        #关闭坐标
plt.show()

  

 

posted @ 2019-01-14 22:22  小小猎魔人  阅读(129)  评论(0)    收藏  举报