徐誉丹---第一次个人编程作业

作业介绍

博客班级 https://edu.cnblogs.com/campus/fzzcxy/2018CS
作业要求 https://edu.cnblogs.com/campus/fzzcxy/2018CS/homework/11732
作业目标 采集腾讯视频《在一起》评论,利用分词器处理数据,生成词云图展示在html页面上,将代码上传到Github
作业源代码 https://github.com/xyd242/first-personal-work
学号 211806242
时间分布
步骤 耗时
----- ----
数据采集 3.5h
数据处理 1h
数据分析展示 2h
代码上传到Github 1.5h
代码展示


作业过程

1.数据采集
因为之前爬虫没学好加上后面也没有去巩固复习,所以前期光复习就耗费了好一会时间。原本是想用Xpath去做,先提取每集链接放在一个列表里,然后放在循环里遍历这些集。每集的评论区链接也在各集里,但是后面发现每集评论区链接是放在#document里,而#document在爬取时是不会被爬取下来的,这也是我前期耗费很多时间卡住的地方。因为爬取不到评论区链接


之后经过查找资料学习知道要用异步加载来做。打开一集的评论区,学习发现评论的信息都在v2?=callback=_article......这一标签的content里,然后多次点开页面的查看更多评论,会出现多个新的v2?=callback=_article......标签,他们的Request URL中的cursor值和source的值都是有规律可循的,之后用正则开始爬取数据。


2.数据处理
数据处理这块根据学习发现jieba分词器比较好上手学习,pip install jieba下载好jieba便可以导库使用,然后将分词后的数据遍历统计数量写入json文件中。
3.数据分析展示
制作词云图这块,因为知识空白,所以也不知道该怎么入手,迷茫了很久,然后去百度学习了一会,感觉还是无头绪,于是只好寻找模板将自己的数据套进去勉强制作出词云图,这一块有新学习到一个编辑html文件的软化Sublime Text3,使用起来很方便。

4.代码上传到GitHub上

(1)先在GitHub上创建crawl和charts两个分支。
(2)随后在两个分支上分别新增写好的代码和绘制的图片和web,并且一步步commit提交信息,且注意提交信息的规范。
(3)将两个分支合并到main上。
(4)最后远程push到GitHub上。
这块就是查询资料然后一步一步照着来

遇到的问题与心得
比较大的问题就是数据采集那一块,因为之前没学好,基础不好,然后执着于用xpath去做,卡了很久,还有就是制作云词图那一块,太难了。这次的作业太难做了,在做的过程中发现自己掌握的知识量实在太少,很多地方如果没有资料可查询,可能也做不出来,这也提醒我要多扩展一下我的知识面了。希望是最后一次假期作业了。

posted @ 2021-02-24 11:29  xyd242  阅读(136)  评论(0)    收藏  举报