李鑫--第一次个人编程作业

作业介绍

| 博客班级 | < 2018级计算机和综合实验班 > |
:-: | :-: | :-:
| 作业要求 | <第一次个人编程作业 > |
| 作业目标 | <爬虫数据采集,jieba分词,echarts渲染云词图,上传Github> |
| 作业源代码 | <first-personal-work> |
| 学号 | <211806222> |

学习记录

步骤 具体内容 花费时间
  1.数据采集             采集腾讯视频里电视剧《在一起》的全部评论信息           6h
2.数据处理 把所有数据保存为json并使用jieba进行分词处理 5h
3.数据展示 将处理后的评论生成云词图 5h
4.上传Github 上传到Github 2h

代码介绍


「爬取数据」

  • 找到电视剧《在一起》的影评,点击影评旁边的数字进入评论的页面,可以发现评论使用了Ajax 异步刷新技术
  • 按下F12,并多次加载更多评论,发现每次加载都会出现新的v2?callback...且有规律的变化
  • 经过多次观察,可以发现请求URL 中只有 cursor 和 source 进行了改变 cursor 是上一个用户data中的last所对应的数值; source 是在第一个的基础上进行加一操作
  • 知道url之间的关系了我们就可以编写代码爬取评论内容了
  • 最后把评论内容都保存到 在一起222.txt 文件当中。

「处理数据」

  • 转化提取的评论格式,读取 comments.json 中的数据,使用 jieba 的精确模式进行分词,接着返回并排序词频最高的单词和出现次数,最后写入 result.json 文件中

「展示数据」

  • 利用echarts.js制作词云,我选用的是铠甲的形状,象征着在前线勇敢抗击疫情的英雄就是我们祖国人民坚强的铠甲

「代码上传」
1.新建一个文件夹,右键点击"Git Bash Here",打开git命令行。
2.输入"git init",进行初始化。


3.输入"git remote add origin 你自己的仓库HTTPS地址",连接仓库。


4.输入 "git clone 仓库地址",将远程仓库的内容克隆到本地仓库。


5.输入 "cd first-personal-work",进入文件夹后输入"git branch -a"查看所有分支。


6.输入"git checkout 分支名"切换分支。
7.输入"git add 文件名",将文件添加到暂存区。
8.输入"git commit -m "提交项目的备注"",将命令从暂存区提交到本地版本库。


9.输入"git push -u origin 分支名",将本地分支仓库推送到远程仓。


10."git checkout main"切换分支到 main,输入 "git merge crawl" 和 "git merge chart",合并分支,最后提交到远程仓库("git push")。

个人感悟

这次作业对我来说真的太不容易了,做了整整2天2夜,各种查资料咨询助教和同学,作业要求中几乎百分之70内容是自学的😭。刚开始做以为云词图会是较轻松较有意思的,没想到学了一下午的时间!而且代码老是运行不成想象中的图形,还得感谢同学帮我找出代码中的错误😭。虽然这几天非常的辛苦,最后收尾写博客精心排版一下就快要通宵了,但是真正完成以后也是能享受到那种成就感和乐趣的,感谢老师和助教寒假的关心啦,希望新年继续进步。

参考资料

  1. Python爬虫实战:爬取腾讯视频的评论
  2. “结巴”中文分词:做最好的 Python 中文分词组件
  3. 关于Echarts词云图自定义形状如何实现
  4. 前端可视化数据--echarts
  5. git创建分支提交远程分支,将分支branch合并到主干master
posted @ 2021-02-26 04:11  GhardZ  阅读(99)  评论(3编辑  收藏  举报