冯琳---第一次个人编程作业

博客班级 2018级计算机和综合实验班
作业要求 第一次个人编程作业
作业目标 数据采集,数据处理,数据分析展示(词云图)以及git的使用
作业源代码 first-personal-work
学号 211806213

一、时间记录

代码行数 分析时间 编写时间
100+ 4h+ 7h+

二、作业步骤

  1. 数据采集
  • 打开腾讯视频《在一起》的网页,利用爬虫技术正则提取评论信息。因为其网页是异步加载,因此需要找到规律。


  • 可以发现二者的区别是cursor=和_=的数据会发生改变。cursor=的数值在上一次数据的last中,而_=数值每次+1。
  1. 使用爬虫爬取评论数据保存为json
  • 代码如下
  1. 使用jieba分词,并统计数量
  • 下载安装完jieba库之后,分词代码如下
  • 分词完后将结果以字典形式保存为json
  1. 生成词云图
  • 结合js插件echarts.js和echarts-wordcloud.min.js完成index.html

三、Github

  1. 克隆仓库到本地: git clone https://github.com/mirror199976/first-personal-work.git

  2. 进入克隆到本地的文件夹: cd first-personal-work

  3. 新建分支: git switch -c crawl

  4. 将上传的文件复制到文件夹

  5. 上传文件: git add .

  6. 提交: git commit -m "提交信息"

  7. 上传: git push -u origin crawl

  8. 重复3-7操作完成另一分支

  9. 切换回主分支后合并分支: git merge crawl;git merge chart

四、经验总结

  • 重温了一边爬虫基础,在数据采集与处理的地方苦恼了很久,在百度了许多资料以及大佬的帮助下,终于完成了本次实验
  • 而词云图是我第一次接触,在一脸茫然的情况下四处找资料,因为安装的是python39,导致找不到匹配的wordcloud的安装包,最后也是靠着百度和大佬帮助完成的_(:з)∠)_并且git的操作也还不太熟练,中间出过一些小错误
  • 感觉自己好废噗_(:з)∠)_,还需要继续学习更多知识,加强自己的编程能力。

五、参考文献
介绍一种安装python第三方库jieba库的方法
Python爬取腾讯视频评论的思路详解
python爬虫学习笔记(一)—— 爬取腾讯视频影评
利用jieba进行中文分词并进行词频统计
echarts绘制词云图及常用属性

posted @ 2021-02-26 16:38  Mirror199976  阅读(83)  评论(0)    收藏  举报