词云入门
需要的工具
matplotlib
matplotlib,是python的一个绘图库,最终词云的绘制需要用到它。
jieba
jieba,最好用的开源中文分词工具。他最主要的两个功能是分词和关键词的抽取。在词云的生成过程中都需要用到。
wordcloud
wordcloud是一个词云生成器,只要进行相关的配置就能生成相应的词云。
实现过程
实现的过程简单来讲,两步走,1. 提取关键词,2. 生成词云。
import matplotlib.pyplot as plt #数据可视化
import jieba #分词
from wordcloud import WordCloud,ImageColorGenerator,STOPWORDS #词云
import numpy as np #科学计算
from PIL import Image #处理图片
#1.读文本,一定是utf-8
text = open('jack.txt','r',encoding='utf-8').read()
#2.分割文本
cut_text = jieba.cut(text)
#3.以空格拼接起来
result = " ".join(cut_text)
#4.背景图片
background=np.array(Image.open("11.jpg"))
# 5.生成词云
wc = WordCloud(
font_path='simkai.ttf', #字体路径
background_color='white', #背景颜色
width=1000, #图片尺寸
height=600,
max_font_size=50, #最大字体尺寸
min_font_size=10,
mask=background, #背景图片
max_words=100, #最大词语数量
stopwords=STOPWORDS, #停止的默认词语
random_state=50, #随机角度
)
wc.generate(result)
wc.to_file('jielun.png') #图片保存
#6.显示图片
plt.figure('jielun') #图片显示的名字
plt.imshow(wc)
plt.axis('off') #关闭坐标
plt.show()

浙公网安备 33010602011771号