林汕--第一次个人编程作业

博客班级	https://edu.cnblogs.com/campus/fzzcxy/2018CS
作业要求	https://edu.cnblogs.com/campus/fzzcxy/2018CS/homework/11732
作业目标	采集腾讯视频里电视剧《在一起》的全部评论信息，将采集到的评论信息做成词云图
作业源代码	https://github.com/211806121linshan/first-personal-work
学号	211806121

时间分布

步骤	耗时
数据爬取	0.5h
数据处理	1h
生成词云	1h
上传至github	3h

爬取评论

打开相应网站，使用谷歌浏览器右键打开检查，注意将鼠标放至评论再右击

在上图中沿着蓝色方框把标签逐级打开，进行分析，经过分析可知网站用的是异步加载。
然后我通过搜索找到类似的代码，将代码进行稍微的修改爬取对应的评论，并且保存为txt文件。

至此评论爬取工作就做完了，接下来就是要对得到的数据进行处理。

数据处理
通过对刚才爬取到的评论进行分词，jieba进行词频统计，再调用numpy进行词云的生成

生成词云

得到的词云如下图

上传至github

先在github上面创建仓库first-personal-work
然后在本地打开git-bash，输入git init

把仓库克隆到本地

进入first-personal-work
建立crawl和chart两个分支

指定chart分支，可以看到main变成chart

开始上传文件，上传一次commit一次，剩下的文件按照如下步骤逐次上传，传完为止

剩下文件部分操作步骤

将两个分支分别合并到主分支

将文件上传

遇到的问题
从开始的爬取代码就是通过网站上学习拿来使用的
词云的也是，过程中要用的插件，这些都是根据网络学习做出来的
本次对我来说最困难的文件上传，以前并没有接触过，有的时候很简单的yige问题都会困我好久，例如要与github仓库建立连接时出现报错
通过Generate new token解决了登陆问题

最后的上传结果

参考资料
https://www.liaoxuefeng.com/wiki/896043488029600
https://blog.csdn.net/zx1245773445/article/details/100894576
https://blog.csdn.net/ruanhao1203/article/details/91948837
https://www.cnblogs.com/longshiyVip/p/5640987.html
https://www.cnblogs.com/xiaowenshu/p/9916735.html
https://www.cnblogs.com/litchi666/p/12703836.html
http://www.ruanyifeng.com/blog/2016/01/commit_message_change_log.html
https://blog.csdn.net/heyuexianzi/article/details/76851377

posted @ 2021-02-26 14:31 ls121 阅读(116) 评论(0) 收藏举报

刷新页面返回顶部

ls121

林汕--第一次个人编程作业

公告