李鑫--第一次个人编程作业
作业介绍
| 博客班级 | < 2018级计算机和综合实验班 > |
:-: | :-: | :-:
| 作业要求 | <第一次个人编程作业 > |
| 作业目标 | <爬虫数据采集,jieba分词,echarts渲染云词图,上传Github> |
| 作业源代码 | <first-personal-work> |
| 学号 | <211806222> |
学习记录
步骤 | 具体内容 | 花费时间 |
---|---|---|
1.数据采集 | 采集腾讯视频里电视剧《在一起》的全部评论信息 | 6h |
2.数据处理 | 把所有数据保存为json并使用jieba进行分词处理 | 5h |
3.数据展示 | 将处理后的评论生成云词图 | 5h |
4.上传Github | 上传到Github | 2h |
代码介绍
- 找到电视剧《在一起》的影评,点击影评旁边的数字进入评论的页面,可以发现评论使用了Ajax 异步刷新技术
- 按下F12,并多次加载更多评论,发现每次加载都会出现新的v2?callback...且有规律的变化
- 经过多次观察,可以发现请求URL 中只有 cursor 和 source 进行了改变 cursor 是上一个用户data中的last所对应的数值; source 是在第一个的基础上进行加一操作
- 知道url之间的关系了我们就可以编写代码爬取评论内容了
- 最后把评论内容都保存到 在一起222.txt 文件当中。
- 转化提取的评论格式,读取 comments.json 中的数据,使用 jieba 的精确模式进行分词,接着返回并排序词频最高的单词和出现次数,最后写入 result.json 文件中
- 利用echarts.js制作词云,我选用的是铠甲的形状,象征着在前线勇敢抗击疫情的英雄就是我们祖国人民坚强的铠甲
「代码上传」
1.新建一个文件夹,右键点击"Git Bash Here",打开git命令行。
2.输入"git init",进行初始化。
3.输入"git remote add origin 你自己的仓库HTTPS地址",连接仓库。
4.输入 "git clone 仓库地址",将远程仓库的内容克隆到本地仓库。
5.输入 "cd first-personal-work",进入文件夹后输入"git branch -a"查看所有分支。
6.输入"git checkout 分支名"切换分支。
7.输入"git add 文件名",将文件添加到暂存区。
8.输入"git commit -m "提交项目的备注"",将命令从暂存区提交到本地版本库。
9.输入"git push -u origin 分支名",将本地分支仓库推送到远程仓。
10."git checkout main"切换分支到 main,输入 "git merge crawl" 和 "git merge chart",合并分支,最后提交到远程仓库("git push")。
个人感悟
这次作业对我来说真的太不容易了,做了整整2天2夜,各种查资料咨询助教和同学,作业要求中几乎百分之70内容是自学的😭。刚开始做以为云词图会是较轻松较有意思的,没想到学了一下午的时间!而且代码老是运行不成想象中的图形,还得感谢同学帮我找出代码中的错误😭。虽然这几天非常的辛苦,最后收尾写博客精心排版一下就快要通宵了,但是真正完成以后也是能享受到那种成就感和乐趣的,感谢老师和助教寒假的关心啦,希望新年继续进步。