陈棋---第一次个人编程作业

博客班级 2018级计算机和综合实验班
作业要求 第一次个人编程作业
作业目标 数据采集、数据可视化
作业源代码 first-personal-work
学号 211806205
步骤 耗时
爬取评论 3h
数据处理 3h
数据展示 2h
代码提交 0.5h

一 数据采集

1.进入评论区,大概能够知道是异步加载。
https://coral.qq.com/article/5963120294/comment/v2?callback=article5963120294commentv2&orinum=10&oriorder=o&pageflag=1&cursor=0&scorecursor=0&orirepnum=2&reporder=o&reppageflag=1&source=1&=1614181601885
https://coral.qq.com/article/5963120294/comment/v2?callback=article5963120294commentv2&orinum=10&oriorder=o&pageflag=1&cursor=6716706003418103507&scorecursor=0&orirepnum=2&reporder=o&reppageflag=1&source=1&=1614181601886
https://coral.qq.com/article/5963120294/comment/v2?callback=article5963120294commentv2&orinum=10&oriorder=o&pageflag=1&cursor=6716701977205046126&scorecursor=0&orirepnum=2&reporder=o&reppageflag=1&source=1&=1614181601887
https://coral.qq.com/article/5963120294/comment/v2?callback=article5963120294commentv2&orinum=10&oriorder=o&pageflag=1&cursor=6716704031706127554&scorecursor=0&orirepnum=2&reporder=o&reppageflag=1&source=1&=1614181601888
在对比了上述四个url之后,发现只有cursor和_的值不同。其中cursor对应的前一页的last字段,而_则是每次+1。
2.在获取每一页的评论时,同时获取当前页的cursor字段值,用来获取下一页的评论。
3.在判断循环条件时,原先的想法是根据网页源码里的hasnext字段来进行判断,但是正则表达式一直匹配不到,这个不知道问题出在哪里。

后来换了一种思路,网页源码里的content总数<1时,退出循环,但是这样的话,对于总的一个页数不能做到一个很好地把握,比如说在评论增加到超出我设置的页数,这样就无法获得所有的评论。
4.最后将获取到的评论内容保存到contents.txt文件中。

二 数据处理

通过百度了解到,大概是要把数据处理成类似于{name:"",value:""}的格式。
这里使用了jieba来进行分词,模式为精确模式,对获取到的评论进行处理。

三 结果展示

因为在此之前没怎么接触过JavaScript,这里的是借鉴了别人的模板,使用自己处理后的数据,大概就是下面这样。

四 代码上传

1.git clone 仓库地址 将远程仓库克隆到本地
2.git branch 分支名 重复两次,分别创建crawl和chart分支
3.git checkout 分支名 进入到相对应的分支
4.git add 文件名 添加文件到暂存区
5.git commit -m "注释" 注释
6.git push origin 分支名 将暂存区内的文件推送到远程仓库

五 总结

这次的作业有好多都是第一次接触,比较难一些,也学到了很多吧。还有一个就是加深了对git的使用。

posted @ 2021-02-24 18:48  独影阑珊c  阅读(95)  评论(2编辑  收藏  举报