寒假第三份作业

博客班级 https://edu.cnblogs.com/campus/fzzcxy/Freshman
作业要求 https://edu.cnblogs.com/campus/fzzcxy/Freshman/homework/11734
作业目标 题目一:词云图
作业源代码 https://github.com/peipeiziyapeizizi/WinterVacationHomework
学号 212006119

本次所爬评论的电影为:新神榜:哪吒重生

词云图作业内容如下:

第一步:数据采集

我选择的是在豆瓣网爬取新神榜:哪吒重生这部电影的评论
所以我在该电影评论页面通过鼠标右键,查看网页源代码
发现电影的评论都在
<p class=" comment-content">
下的
<span class="short">
中,如图:

于是开始爬取评论:

如上图,爬取成功。

因为评论有200页,每页有20条评论,所以可用循环结构爬取每一页的评论:

第二步:数据处理

我通过csv这个库,将爬取到的评论保存到“豆瓣.csv”中,如下图:

第三步:数据可视化


附上云词图:

可以添加背景图以此改变云词图形状:

参考资料

python爬虫入门教程案例
词云图
python安装第三方库

posted @ 2021-02-24 21:36  呸呸子呀呸子子  阅读(114)  评论(0编辑  收藏  举报