赵灿---第一次个人编程作业

博客班级 <2018级计算机和综合实验班 >
作业要求 <第一次个人编程作业 >
作业目标 <爬虫数据采集,jieba分词,echarts渲染云词图,上传Github>
作业源代码 <first-personal-work>
学号 <211806196>
数据分析与采集
从评论区 按下F12,评论全部出现在一页,在下一步观察后,发现该页面是根据异步刷新方法更新数据,无法直接从网页源代码处爬取数据。但我们可以从 Network 中,以v2开头的标签中的 Preview 中发现评论数据,且每次刷新,都会生出一个新的。


爬虫这门学问没怎么接触过,刚开始接触比较吃力,目前也没有更好的数据采集方法,在借鉴同学的前提下自己总结搞到了结果就不展示了。
打开python进行编码爬取评论,提供给 jieba 库使用。(由于能力有限在请教和总结下只有部分代码可供参考)

使用jieba库进行分词


利用echarts.js制作词图云

上传至GitHub

创建对应分支

「代码上传」
1.新建一个文件夹,右键点击"Git Bash Here",打开git命令行。
2.输入"git init",进行初始化。

3.输入"git remote add origin 你自己的仓库HTTPS地址",连接仓库。

4.输入 "git clone 仓库地址",将远程仓库的内容克隆到本地仓库。

5.输入 "cd first-personal-work",进入文件夹后输入"git branch -a"查看所有分支。

6.输入"git checkout 分支名"切换分支。

7.输入"git add 文件名",将文件添加到暂存区。
8.输入"git commit -m "提交项目的备注"",将命令从暂存区提交到本地版本库。
9.输入"git push -u origin 分支名",将本地分支仓库推送到远程仓。
10."git checkout main"切换分支到 main,输入 "git merge crawl" 和 "git merge chart",合并分支,最后提交到远程仓库("git push")。

总结:这次作业涉及了很多没有接触过的知识,比如爬虫数据采集,jieba分词,词图云等,花费的时间较久,学习的也很吃力,作业完成的也很坎坷,在这次作业后对这些知识有了一定的认知。最主要的是认识到了自己代码方面的不足,需要在以后用力。

posted @ 2021-02-26 16:54  zcyxy  阅读(73)  评论(2)    收藏  举报