第一个人编程作业

博客班级 https://edu.cnblogs.com/campus/fzzcxy/2018CS/
作业要求 https://edu.cnblogs.com/campus/fzzcxy/2018CS/homework/11732
作业目标 爬取腾讯视频《在一起》电视剧的评论,制作词云图,上传到gitgub里
作业源代码 https://github.com/Chentong2012/first-person-work/tree/crawl
学号 211806157

作业步骤

步骤 大概内容
爬取评论 因为腾讯视频的视频的评论不是分页的,所以要用到异步加载
保存文本 将爬取到的评论保存成文本,方便下一步操作
做词云图 用jieba分词器先分词,在用wordcloud做词云图
上传代码 将代码上传到gitgub中

1、打开腾讯视频《在一起》电视剧的评论,打开谷歌的开发者工具,点击加载更多评论,刷新界面,可以看到会有多个以“v2?”开头的文件,点进去

观察多个可以发现,变化的只有尾部的数字和"cursor="后面的数字,找到规律以后就可以爬取了。

2、将爬取到的数据保存,我是将数据保存成了TXT文件,一开始代码写的位置不对,爬取完了以后就只剩下最后一句,前面的都被覆盖了,后来仔细看了才发现,居然把文本放在了里面的循环里,不知道我当时是怎么想的,后来改了以后评论就全有了
3、用jieba分词器进行分词,下载没想到会花那么长的时间,不知道是我网络有问题还是怎样,花了一个多小时,我的分词这里做的不好,一些连接词和代词没有去掉,这里下回可能要改一下

4、将爬取到的数据保存成json文件

最后出来的词云图效果,本来是心形,但是数据不算太多,出来的不像了

5、将文件上传的步骤是上次做的,但是多了建立分支,和利用commit做注释
(1)查看分支

(2)上传文件并且添加注释

(3)切换回主干

(4)合并其中一个分支

(5)上传

总结:去年的爬虫没有学好,这次作业真的要了我半条命,异步加载那里完全不会,就和新学了一遍一样,创建分支那里也一直出问题,每次创建完都查看不到,而且我是把代码写完了以后才看到要用到commit,还是一开始的时候看作业不仔细,审题不清,还好上传的时候是一个一个上传的

posted @ 2021-02-22 22:00  陈彤2012  阅读(73)  评论(0编辑  收藏