博客班级 2018级计算机和综合实验班
作业要求 第一次个人编程作业
作业目标 爬取《在一起》评论,使用分词器处理数据,生产词图云,上传至GitHub
作业源代码 源代码
学号 211806191
数据分析与采集
一.分析网页
(1)打开腾讯视频《在一起》的评论网页,进入开发者模式(右键检查,再刷新)。对该网页(异步加载)的request请求进行分析,发现每页只有十个评论,
需要到最下方(查看更多评论)才能刷新出新的评论,可以判断该网页为异步加载更新数据。

(2)可以发现:cursor对应着上一页最后一个last的值

(3)摸清楚规律后,接下来就进行敲代码环节了,想了几个花里胡哨的操作,还是直接上正则表达式
代码如下

二.数据处理
这是用的是jieba进行分词,因为是第一次使用,也是一脸懵逼,只能上网查资料了
(1)读入文本文件
(2)提取权重高的关键词
(3)对文件内容进行分词

三.生成词图云
第一次接触,没学过使用词图云,自己参考网上大量资料以及询问同学,参考同学的模板勉勉强强做出来

四.上传至GitHub

创建对应分支

(1)在需要上传的文件的文件夹中右键点击“Git Bash Here”,打开git命令

(2)输入git init

(3)输入“git remote add origin +自己的仓库地址” ,连接自己的guthub仓库

(4)将仓库克隆到该文件夹,这时会新建一个first-personal-work文件夹

(5)进入first-personal-work文件夹,切换到crawl( “git checkout crawl”)

(6)上传文件(git add +文件名)

(7)提交备注(“git commit -m "信息"”)

(8)输入“git push -u origin master(或其他分支)”,上传项目到Github,需要输入账号密码

体会总结:
(1)因为有涉及到新知识,很多东西都是第一次接触,学起来也比较费力,本次作业完成较为坎坷。
(2)还没有掌握本次的新知识,作业完成后好好的巩固一下本次所学习的内容。
(3)任重道远。