黄玉鑫--第一次个人编程作业

博客班级 https://edu.cnblogs.com/campus/fzzcxy/2018CS
作业要求 https://edu.cnblogs.com/campus/fzzcxy/2018CS/homework/11732
作业目标 <爬取腾讯视频《在一起》所有评论,分词处理后制作出词云图>
作业源代码 https://github.com/huangyuxinbest/first-personal-work/tree/main
学号 <211806115>
时间记录
步骤 花费时间
---------- --------------------------------------
1. 进行数据采集 5h
2.数据处理 3h
3.数据分析 1h
4.上传代码 1h
一.爬取腾讯视频电视剧《在一起》的评论
1.分析网页
(1)打开《在一起》的网页,下拉找到热评点击进入,按f12进入开发者模式,会发现多个变化的网址
(2)通过观察发现网站评论是用了Ajax异步加载技术,经过多次寻找规律,找到了规律,请求URL 中 cursor 和 source 进行了改变,其他是不变的;
2.爬取评论

3.分词处理
这是我第一次接触jieba进行分词处理,以前听都没听过
因为没接触过,然后上bilibili了解了一下
然后去GitHub中找到了国内常用停词表
编写代码进行分词处理 将前面爬取的评论处理保存


4.数据处理
echart.js这个东西是真的没学过
通过bilibili的视频研究了好久还是没搞懂
然后找同学问,找个模板套了一下

5.上传代码
(1)右键本地文件夹 Git Bash Here
(2) 在命令行中,输入“git init”,使“第一次编程”文件夹加入git管理

(3)输入“git remote add origin xxxx“ (git remote add origin 你自己的https地址),连接你的guthub仓库。

(4)将Git中的仓库内容复制到该文件夹中,这时文件夹会新建一个first-personal-work文件

(5)进去first-personal-work文件,查看所有分支,(输入 “git checkout crawl”可以更换分支)


(6)输入“git add ”,将文件夹全部内容添加到git;也可以输入“git add 上传文件的名字” ,将此文件内容添加到git

(7)输入“git commit -m "first"”(“git commit -m "提交信息"”)

(8)输入“git push -u origin master(可以更换其他分支)”,上传项目到Github。这里会要求输入Github的账号密码(要输两遍),按要求输入就可以

(9)切换分支后重复操作将剩下的文件上传并备注
(10)将两个分支分别合并到主分支,合并后的分支不要删除


最终结果

总结
放假在家都是玩,学习没跟上,很多知识没接触过,特别是这次作业,我们方向没学过爬虫(大数据好像是学了)
感觉太难了这些东西以前都没接触过,需要慢慢学习积累,这次作业让我明白学习不能只靠课堂,自己课后努力也很重要
也麻烦老师和助教了,祝老师和助教们新年快乐

posted on 2021-02-26 22:17  huangyuxinbest  阅读(86)  评论(1)    收藏  举报