| 作业要求 |
https://edu.cnblogs.com/campus/fzzcxy/2018CS/homework/11732 |
| 作业目标 |
爬取腾讯视频《在一起》电视剧的评论,制作词云图,上传到gitgub里 |
| 作业源代码 |
https://github.com/Chentong2012/first-person-work/tree/crawl |
| 学号 |
211806157 |
| 作业步骤 |
|
| 步骤 |
大概内容 |
| ---------- |
-------------------------------------- |
| 爬取评论 |
因为腾讯视频的视频的评论不是分页的,所以要用到异步加载 |
| 保存文本 |
将爬取到的评论保存成文本,方便下一步操作 |
| 做词云图 |
用jieba分词器先分词,在用wordcloud做词云图 |
| 上传代码 |
将代码上传到gitgub中 |
| 1、打开腾讯视频《在一起》电视剧的评论,打开谷歌的开发者工具,点击加载更多评论,刷新界面,可以看到会有多个以“v2?”开头的文件,点进去 |
|
![]() |
|
| 观察多个可以发现,变化的只有尾部的数字和"cursor="后面的数字,找到规律以后就可以爬取了。 |
|
![]() |
|
| 2、将爬取到的数据保存,我是将数据保存成了TXT文件,一开始代码写的位置不对,爬取完了以后就只剩下最后一句,前面的都被覆盖了,后来仔细看了才发现,居然把文本放在了里面的循环里,不知道我当时是怎么想的,后来改了以后评论就全有了 |
|
| 3、用jieba分词器进行分词,下载没想到会花那么长的时间,不知道是我网络有问题还是怎样,花了一个多小时,我的分词这里做的不好,一些连接词和代词没有去掉,这里下回可能要改一下 |
|
![]() |
|
| 4、将爬取到的数据保存成json文件 |
|
![]() |
|
| 最后出来的词云图效果,本来是心形,但是数据不算太多,出来的不像了 |
|
![]() |
|
| 5、将文件上传的步骤是上次做的,但是多了建立分支,和利用commit做注释 |
|
| (1)查看分支 |
|
![]() |
|
| (2)上传文件并且添加注释 |
|
![]() |
|
| (3)切换回主干 |
|
![]() |
|
| (4)合并其中一个分支 |
|
![]() |
|
| (5)上传 |
|
![]() |
|
| 总结:去年的爬虫没有学好,这次作业真的要了我半条命,异步加载那里完全不会,就和新学了一遍一样,创建分支那里也一直出问题,每次创建完都查看不到,而且我是把代码写完了以后才看到要用到commit,还是一开始的时候看作业不仔细,审题不清,还好上传的时候是一个一个上传的 |
|