罗宇欣--第一次个人编程作业
作业介绍
| 博客班级 | 2018级计算机和综合实验班 |
|---|---|
| 作业要求 | 作业要求 |
| 作业目标 | 采集腾讯视频里电视剧《在一起》的全部评论信息,利用分词器处理数据,生成词云图,并将代码上传GitHub |
| 作业源代码 | 云仓库地址 |
| 学号 | 211805124 |
时间记录
| 步骤 | 用时 |
|---|---|
| 分析题目 | 1h |
| 查找资料 | 3h |
| 编写代码 | 4h |
| 向同学问问题 | 3h |
| 其他步骤 | 4h |
| 总共用时 | 2天 |
| 代码行数 | 85行 |
一、爬取评论信息
评论采用的是Ajax异步刷新技术

后面的对应数字为代码中的data,刷新一次页面就会更新一次。
cursor=?的值存在上面一个JS中。

content的值为评论的内容,所以需要爬取每个content的值。
【改了好多次代码,参考了很多别人的文章,最开始的代码跑出来的评论都是重复的,后来发现要用代理,参考时候加上代理的代码结果告诉我没有引用的名字!改了好多次就是不对,不得已又改了一种写法,跑是跑出来了,但是跑出来的评论真的是少的可怜,只能继续修改!上学期的爬虫真的是学的不太行,一直在参考,好多个资料换着看,终于把全部的评论给搞出来了!】
二、安装jieba
第一次我直接cmd,结果没有成功安装。第二次我是在Anaconda Prompt中输入pip install jieba进行安装,这次安装成功了。

三、进行词云图代码编写
使用Echarts

(做出来个纯色的)
四、上传至GitHub
- 将仓库克隆到本地
git clone 地址

- 建立crawl和chart分支
git checkout -b 分支名这是建立并跳转到该分支
git branch 分支名这只是建立分支


查看所有分支
git branch -r

- 将数据和代码保存到各分支
git commit -m "名字"
git checkout 分支名切换到该分支

每新加一个文件就要执行一次 git add .不然无法成功保存(最开始我就忘记了就像下图一样)

因为最开始保存到了一个分支里面所以之后又有改动
- 上传至GitHub
git push origin 分支名将commit的文件上传

因为是先传了爬取的信息和分词结果所以词云图又单独保存上传了一次

- 合并分支
将crawl和chart分支合并到main,一定要切换到main在进行合并
git merge 分支名通过改动分支名将各分支的文件合并到main

- 最后push到远程仓库
git push origin main

五、总结
我真的弄这个作业弄到绝望,参考资料找了一大堆,不断地问问题、不断地百度最后终于弄明白点。代码书写真的是个问题,而且好多问题都需要注意,词云图弄半天也显示不出来也不知道为啥!幸亏代码没错最后才能弄出来一张图。
参考资料

浙公网安备 33010602011771号