第一次个人编程作业
| 博客班级 | 软件工程综合实践 |
|---|---|
| 作业要求 | 填写这份作业要求的链接 |
| 作业目标 | <采集腾讯视频里电视剧《在一起》的全部评论信息并进行数据处理> |
| 作业源代码 | 地址 |
| 学号 | 211804153 |
前期:
简介:对于爬虫不太熟练使用的我来说爬取多页信息真的有点难度,前期因为一些原因我的pycharm崩溃了,无奈只能使用Jupyter来进行程序的编写。
在使用jieba的时候又因为jieba文件没和.py文件放在一起,又导致了这个模板的无法使用,因为jieba是第三方模块,找到它被我放在哪里又花了一些时间。
先在评论那里折腾了好久,明明是简单的找规律,我在网上找教程跟着做也还是不行,这就是知识的局限性吧。我有对比的一些数据并建了一个文档汇总,后面直接在V2啥的里面就可以找到了,不需要这个。
中期:
| 时间 | 2/23至2/25 |
|---|---|
| 数据爬取 | 2h |
| 处理数据 | 5h |
| 整合数据 | ?h |
| 这几天由于个人原因零零散散的在做这个,真的困难啊,期间的问题越来越多,百度刚刚解决了一个就又来另一个 | |
这种乱码问题就属实离谱,我必须要重复另存为才能将编码格式转化,有时候还会出现上面的已转变了下面的又出现错误。json也是在请教了别人之后才做出来的,实话实说爬虫我学的并不好,只会简单的一些语句,可能在爬取的过程中格式没注意保存下来的TXT和实际要运用的就会有冲突。 |
后期:
词云图的生成真的一言难尽,我就使用了echarts3.js,echarts-wordcloud.js,网页就一直不能出来,一直都是这两个的路径问题,导致下面的一直出不来,在这上面我卡了一个下午,最后只能生成及其简陋的东西,比起别人的来说不是很好看。一开始在官网上下载源文件就折腾了很久,后来在git上下载的文件也没啥用,最后的最后在一个网盘上下载了合适的就开始运用在代码上,不过最后那里明明是Copy简书上可以创造出人形的词云图,最后变成了这样,真是让人失望。

上传GIT:
在最后上传crawl的时候有出现需要自己编辑的页面跳出来,需要:wq退出,之后就会正常加载

附件:
echart的相关教程
Echarts入门
jieba库的使用
保存json数据到本地
Python处理JSON
前端词云图
总结
还有一些因为历史记录自动删除就找不到了,作业真是百度加咨询加自我理解啊,对我来说不太容易啊真的,光是查资料就不知道花了多久,每天惦记还有多少时间,一直做一直错,错到后面百度都找不到怎么解决,有些错误就很奇葩,怎么变成那样的都不知道。这个还是有教学的比较好一些,自己来弄就是在摸石头过河。

这种乱码问题就属实离谱,我必须要重复另存为才能将编码格式转化,有时候还会出现上面的已转变了下面的又出现错误。json也是在请教了别人之后才做出来的,实话实说爬虫我学的并不好,只会简单的一些语句,可能在爬取的过程中格式没注意保存下来的TXT和实际要运用的就会有冲突。
浙公网安备 33010602011771号