朱佳超----------第一次个人编程作业

博客班级 2018软件工程综合实践1班
git仓库地址 https://github.com/zhujiachaozjc/zhu.git
作业要求 第一次个人编程作业
作业目标 获取《在一起》评论信息,并进行分词,最后生成词云。将代码提交至GitHub上
学号 211806198
步骤 花费时间
分析《在一起》的评论网页的request请求 10分钟
编写爬虫代码获取评论信息 1小时
使用jieba分词器将获取到的评论信息进行分词 很久
生成词云显示在网页上 很久

第一步 分析评论网页的request请求

首先我们要对该网页的request请求进行分析(这种网页是异步加载的,所以我们要通过分析request来找到网页数据),摁下Fn+F12后再摁Fn+F5进行刷新网页,获得了以下数据

这时我们再把网页下拉,点击查看更多评论,就会出现新的响应,如下图

获取到请求后,我们对这两的requesturl进行仔细分析,发现第二个url里的cursor值,是第一个url的preview里last的值,然后第一个url的最后1位数字+1,就是第二个url



这是评论所在的位置

第二步 编写爬虫代码获取评论

在知道所需要爬取的内容在哪之后,就可以来编写代码进行爬取了(这里我使用正则表达式来进行爬取,不得不说(.*?)永远滴神)

(不过这里的代码还是有点瑕疵,我不太清楚总的有多少个request请求,所以直接写了for循环来获取,这样导致爬取所有评论信息的时间会很长(呜呜呜,我确实等了一段时间才等到它运行结束))

第三步 使用jieba分词器进行分词

这里我发现在我自己的环境中还没有jieba这个库,就先在Terminal界面输入pip install jieba进行导入库(这里我也等了好久才完成)
说实话,这是我刚开始接触这个分词器,所以我为了搞定这个,查阅了很多资料才搞定这个东西,因此我在这过程中也花了很多的时间。不过当我完成之后,发现这些努力都是值得的。以下是我完成分词,并将这些词一个一行的保存到文件的代码

这里我选取了排行前70名的词汇

第四步 生成词云

这里我也花了很长时间去找资料,毕竟也是第一次接触使用echarts来生成词云。最后是在Github找到相关代码进行借鉴了。以下是部分代码图

以下是最终的实现结果

第五步 将代码提交至我的Github

  • (1) 进入到自己需要操作的文件夹,摁下鼠标右键,点击"Git Bash Here"进入到git命令行界面

  • (2) 输入"git init",使该文件夹进入到master模式

  • (3) 输入"git remote add origin 你自己的仓库地址",连接你的guthub仓库。

  • (4) 将Git中的仓库内容复制到该文件夹中

  • (5) 进去zhu文件,查看所有分支,并切换分支


  • (6) 输入“git add 上传文件的名字” ,将此文件内容添加到git

  • (7) 输入“ git checkout -b 'branch1'”更换分支,上传项目到Github。

  • (8) 切换到主分支(main)上,然后将branch1分支合并到主分支,最后提交


参考资料

如何使用echarts生成词云
jieba库的使用
git的分支提交、合并

以上就是这次的编程作业的完成过程啦

posted @ 2021-02-22 09:21  仅有的回忆  阅读(185)  评论(2)    收藏  举报