爬取学校官网新闻-生成词云
学习了一篇别人的文章之后,知道了怎么生成词云,于是在原来代码的基础上添加了生成词云的程序
import jieba
from wordcloud import WordCloud
import matplotlib.pyplot as plt
#读取文件
file=open('fosu.csv',encoding='utf-8').read()
#结巴分词
wordlist=jieba.cut(file,cut_all=True)
# print(wordlist)
#去掉空格
# w1=' '.join(wordlist)
# print(w1)
ls=[]
count={}
for w in wordlist:
ls.append(w)
if len(w)<=1:
continue
else:
#字典的get方法,如果有这个w,那么就返回字典中w的值,否则返回0,最终都+1
count[w]=count.get(w,0)+1
# print(count)
#打印排序后的列表
items=list(count.items())
items.sort(key=lambda x:x[1],reverse=True)
print(items)
#设置背景,大小
wordcloud=WordCloud(
background_color='white',
#最多显示100个词语
max_words=300,
#设置有多少种配色方案
max_font_size=100,
height=1000,
width=1000,
#设置字体路径
font_path='C:\Windows\Fonts\simfang.ttf',
relative_scaling=0.9
)
#生成词云
# myword=wordcloud.generate(count)
#根据词频生成词云
myword=wordcloud.generate_from_frequencies(count)
#展示词云图
plt.imshow(myword)#默认配置
#axis是用来设置具体某一个坐标轴的属性的,修改xy轴的限制,进行等额递增
plt.axis('off')
plt.show() #显示图像
#保存词云图
wordcloud.to_file('cloud.jpg')
浙公网安备 33010602011771号