网络爬取词云图
网络爬取词云图
一、下载wordcloud
在WINDOW10下成功解决“You are using pip version 10.0.1, however version 20.0.2 is available.”
本机pip原版本为10.0.1,使用 python -m pip install --upgrade pip和
python -m pip install --upgrade pip --force-reinstall都是提示以上的安失败
方法是在命令提示符里输入: python -m pip install -U pip
Windonws+R打开终端输入cmd回车确定,输入pip install matplotlib等待。
在下载wordcloud,输入pip install wordcloud等待一会即可。
如果出现这样的错误:
pip._vendor.urllib3.exceptions.ReadTimeoutError: HTTPSConnectionPool(host='files.pythonhosted.org', port=443): Read timed out.
当我们在用pip或者pycharm来安装模块的时候,经常会遇到ReadTimeout错误,
造成这个问题的原因就是网速问题。解决方法:
1.使用命令
pip --default-timeout=1000 install -U 模块名
例如
pip --default-timeout=1000 install -U matplotlib
来下载matplotlib,让它的延迟检测时间变长
pip --default-timeout=1000 install -U wordcloud
2.1.换个网络连接重新下载
可以看到下面在cmd中用pip安装的下载速度为几十KB/S,这已经算不错的速度。想想之前出现错误可都是几KB/S
二、下载所需的图片(要求背景为白色),复制图片所在路径。
上一颗大草莓:

嘿嘿,上效果图:

代码:
# 1. 导入wordcloud
from wordcloud import WordCloud
import matplotlib.pyplot as plt
# 图片路径:C:\Users\lili\Desktop\timg.jpg
background_img = plt.imread(r'C:\Users\lili\Desktop\timg.jpg')
# 读取文件内容
fp = open('danmu.txt','r',encoding='utf-8')
content = fp.read()
# 2. 创建WordCloud()实例对象
# WordCloud默认字体不支持显示中文
wordcloud = WordCloud(
# font_path:设置字体
font_path='./fonts/simhei.ttf',
# 设置宽度
width=1000,
# 设置高度
height=800,
# 设置最小字体的字号
min_font_size=10,
# 设置图片背景颜色,默认值是黑色,接受16进制
background_color='pink',
mask=background_img
).generate(content)
# generate()根据文本生成词云图
# 画图
plt.imshow(wordcloud)
# 关闭坐标轴
plt.axis('off')
# 显示图片:show()
plt.show()

浙公网安备 33010602011771号