林汕--第一次个人编程作业

博客班级 https://edu.cnblogs.com/campus/fzzcxy/2018CS
作业要求 https://edu.cnblogs.com/campus/fzzcxy/2018CS/homework/11732
作业目标 采集腾讯视频里电视剧《在一起》的全部评论信息,将采集到的评论信息做成词云图
作业源代码 https://github.com/211806121linshan/first-personal-work
学号 211806121

时间分布

步骤 耗时
数据爬取 0.5h
数据处理 1h
生成词云 1h
上传至github 3h

爬取评论

打开相应网站,使用谷歌浏览器右键打开检查,注意将鼠标放至评论再右击

在上图中沿着蓝色方框把标签逐级打开,进行分析,经过分析可知网站用的是异步加载。
然后我通过搜索找到类似的代码,将代码进行稍微的修改爬取对应的评论,并且保存为txt文件。

至此评论爬取工作就做完了,接下来就是要对得到的数据进行处理。

数据处理
通过对刚才爬取到的评论进行分词,jieba进行词频统计,再调用numpy进行词云的生成

生成词云

得到的词云如下图

上传至github

先在github上面创建仓库first-personal-work
然后在本地打开git-bash,输入git init

把仓库克隆到本地

进入first-personal-work
建立crawl和chart两个分支

指定chart分支,可以看到main变成chart

开始上传文件,上传一次commit一次,剩下的文件按照如下步骤逐次上传,传完为止

剩下文件部分操作步骤

将两个分支分别合并到主分支

将文件上传

遇到的问题
从开始的爬取代码就是通过网站上学习拿来使用的
词云的也是,过程中要用的插件,这些都是根据网络学习做出来的
本次对我来说最困难的文件上传,以前并没有接触过,有的时候很简单的yige问题都会困我好久,例如要与github仓库建立连接时出现报错
通过Generate new token解决了登陆问题

最后的上传结果

参考资料
https://www.liaoxuefeng.com/wiki/896043488029600
https://blog.csdn.net/zx1245773445/article/details/100894576
https://blog.csdn.net/ruanhao1203/article/details/91948837
https://www.cnblogs.com/longshiyVip/p/5640987.html
https://www.cnblogs.com/xiaowenshu/p/9916735.html
https://www.cnblogs.com/litchi666/p/12703836.html
http://www.ruanyifeng.com/blog/2016/01/commit_message_change_log.html
https://blog.csdn.net/heyuexianzi/article/details/76851377

posted @ 2021-02-26 14:31  ls121  阅读(92)  评论(0)    收藏  举报