李翔---第一次个人编程作业

博客班级 https://edu.cnblogs.com/campus/fzzcxy/2018CS/
作业要求 https://edu.cnblogs.com/campus/fzzcxy/2018CS/homework/11732
作业目标 采集腾讯视频里电视剧《在一起》的全部评论信息生成词云图,并将代码上传至GitHub
作业源代码 https://github.com/LLLLXIANG/first-personal-work
学号 211805226

作业记录

| 步骤 | 用时 |
| ---- | ---- | ---- |
| 题目分析 | 1小时 |
| 资料查询和代码分析 | 3小时 |
| 代码编写 | 5小时 |
| 咨询同学问题 | 4小时 |
| 其它 | 3小时 |
| 代码上传 | 5小时 |
| 共花费时间 | 3天多 |
PS:代码上传花费的时间最多,还好有同学的帮助,顺利的将代码上传成功。
代码是在Jupyter Notebook上完成的

评论爬取

一开始看到题目的时候是想着用正则表达式或者xpath去爬取评论的,但是后面试着用xpath爬取后,结果出不来所以就放弃了,就用了另外一种方法去爬取信息。使用爬虫方法爬取信息时,需要使用用户代理,通过网页结构发现评论爬取的时候只有cursor和source进行了改变,其他是不变的所以在爬取完第一页的信息完以后,要将cursor和source的值进行改变。

数据处理

在数据处理这个方面,老师也给了我们一些建议,有三个三个中文分词的方法,最后我选择了使用jieba分词,因为jieba分词相对好理解一点,虽然还不能完全理解也查了很多其他人的代码和例子。然后需要将分词的结果放到Json里面。

词云图制作

由于词云图是第一次接触,所以一开始根本毫无头绪,所以也是询问了同学和查找了相关的资料。但是最后还是没有搞成功,就只能将别人的代码进行套用了。

代码上传GitHub

这块花费的时间也比较长久,是因为在第一次进行ssh免密设置的时候没有设置好,导致了每次上传都需要输入用户名及密码使得过程变得繁琐,于是花了两个晚上差不多5个小时的时间,通过同学的指导重新将免密设置成功。最后成功的将代码上传成功。

GitHub仓库创建

先创建first-personal-work,然后再新建crawl和chart两个分支。crawl分支进行数据采集和处理代码的编写,chart分支进行数据的展示。

1、连接和克隆到本地

2、分支切换

3、将代码和结果展示分别上传至对应分支(只截取部分截图)

4、将分支合并至master上(部分截图)

5、GitHub上截图

心得

通过这次作业,让自己也发现了不少问题,之前学过的知识掌握的不太巩固,代码的编写也很有问题,格式老是会出错,还是得要好好的巩固知识点呀!

参考资料

1、爬取腾讯视频评论
2、结巴中文分词
3、结巴
4、GitHub使用
5、git删除已提交文件
6、词云图

posted @ 2021-02-25 12:42  LLLLXIANG  阅读(112)  评论(2编辑  收藏  举报