罗宇欣--第一次个人编程作业

作业介绍

博客班级 2018级计算机和综合实验班
作业要求 作业要求
作业目标 采集腾讯视频里电视剧《在一起》的全部评论信息,利用分词器处理数据,生成词云图,并将代码上传GitHub
作业源代码 云仓库地址
学号 211805124

时间记录

步骤 用时
分析题目 1h
查找资料 3h
编写代码 4h
向同学问问题 3h
其他步骤 4h
总共用时 2天
代码行数 85行

一、爬取评论信息

评论采用的是Ajax异步刷新技术

后面的对应数字为代码中的data,刷新一次页面就会更新一次。
cursor=?的值存在上面一个JS中。

content的值为评论的内容,所以需要爬取每个content的值。

【改了好多次代码,参考了很多别人的文章,最开始的代码跑出来的评论都是重复的,后来发现要用代理,参考时候加上代理的代码结果告诉我没有引用的名字!改了好多次就是不对,不得已又改了一种写法,跑是跑出来了,但是跑出来的评论真的是少的可怜,只能继续修改!上学期的爬虫真的是学的不太行,一直在参考,好多个资料换着看,终于把全部的评论给搞出来了!】

二、安装jieba

第一次我直接cmd,结果没有成功安装。第二次我是在Anaconda Prompt中输入pip install jieba进行安装,这次安装成功了。

三、进行词云图代码编写

使用Echarts

(做出来个纯色的)

四、上传至GitHub

  1. 将仓库克隆到本地

git clone 地址

  1. 建立crawl和chart分支

git checkout -b 分支名这是建立并跳转到该分支

git branch 分支名这只是建立分支


查看所有分支

git branch -r

  1. 将数据和代码保存到各分支

git commit -m "名字"

git checkout 分支名切换到该分支

每新加一个文件就要执行一次 git add .不然无法成功保存(最开始我就忘记了就像下图一样)

因为最开始保存到了一个分支里面所以之后又有改动

  1. 上传至GitHub

git push origin 分支名将commit的文件上传

因为是先传了爬取的信息和分词结果所以词云图又单独保存上传了一次

  1. 合并分支

将crawl和chart分支合并到main,一定要切换到main在进行合并

git merge 分支名通过改动分支名将各分支的文件合并到main

  1. 最后push到远程仓库

git push origin main

五、总结

我真的弄这个作业弄到绝望,参考资料找了一大堆,不断地问问题、不断地百度最后终于弄明白点。代码书写真的是个问题,而且好多问题都需要注意,词云图弄半天也显示不出来也不知道为啥!幸亏代码没错最后才能弄出来一张图。

参考资料

  1. Python爬虫| 实战爬取腾讯视频评论
  2. Python入门:jieba库的使用
  3. git新建分支及提交代码到分支
  4. 简明 jieba 中文分词教程
  5. echarts如何实现关键词云图
  6. echarts实现词云图表
  7. git中如何切换分支,拉取分支,合并分支
  8. GitHub创建分支两种方式
posted @ 2021-02-22 22:25  Isluo  阅读(141)  评论(2)    收藏  举报