周帮华---第一次个人编程作业
| 博客班级 | 班级 |
|---|---|
| 作业要求 | 作业要求 |
| 作业目标 | 采集腾讯视频里电视剧《在一起》的全部评论信息并将高频词制成词云图 |
| 作业源代码 | https://github.com/zbh12/first-personal-work |
| 学号 | 211806249 |
时间安排
| 记录 | 所需时间 |
|---|---|
| 数据爬取 | 1h |
| 数据处理 | 1h |
| 制作词云图 | 2h |
| 代码上传 | 1h |
数据采集
上学期我爬虫学的不太行而且过了这么久很多知识都忘了所以只能先去复习了一下,之后我就选择的是完成作业一采集腾讯视频里电视剧《在一起》的全部评论信息,因为作业二好像有点难,首先进入腾讯视频找到电视剧《在一起》的影评广场,F12查看源代码后通过观察网页的url发现每一页的url只有cursor和source后的数字不同,发现规律后即可爬取代码中的内容我们所需要的内容在content中所以只要爬取这一部分即可。



代码如下:

爬取的结果如下:

数据处理
一开始我都不知道该如何进行这一步,通过查看了其他人的作业发现都是用了jieba库来完成的,后来通过询问同学才知道如何操作和使用jieba库,先在pycharm中下载了jieba库再通过读取之前爬取的结果统计出了高频词和出现的次数


生成词云图

上传至github
一.先在github中创建first-person-work的库,再将库克隆到本地

二.创建分支

三.向分支中添加上传内容

四.合并分支并上传

遇到的问题
向分支中添加内容后在合并之后分支上的内容就不见了,只出现在main中,结合了多个同学的方法才解决但不知道问题出在哪。
心得体会
这次作业是在假期布置的所以做作业的动力也没有,而且这次作业真的难,无论是代码书写部分还是上传部分,都花了很长时间,即使是询问了同学也是似懂非懂,只能说自己学的不够多,通过这次作业和他人的差距一下就表现出来了,接下来好好努力吧。

浙公网安备 33010602011771号