第一次个人编程作业

博客班级	软件工程综合实践
作业要求	填写这份作业要求的链接
作业目标	<采集腾讯视频里电视剧《在一起》的全部评论信息并进行数据处理>
作业源代码	地址
学号	211804153

前期：

简介：对于爬虫不太熟练使用的我来说爬取多页信息真的有点难度，前期因为一些原因我的pycharm崩溃了，无奈只能使用Jupyter来进行程序的编写。
在使用jieba的时候又因为jieba文件没和.py文件放在一起，又导致了这个模板的无法使用，因为jieba是第三方模块，找到它被我放在哪里又花了一些时间。
先在评论那里折腾了好久，明明是简单的找规律，我在网上找教程跟着做也还是不行，这就是知识的局限性吧。我有对比的一些数据并建了一个文档汇总，后面直接在V2啥的里面就可以找到了，不需要这个。

中期：

时间	2/23至2/25
数据爬取	2h
处理数据	5h
整合数据	?h
这几天由于个人原因零零散散的在做这个,真的困难啊，期间的问题越来越多，百度刚刚解决了一个就又来另一个
这种乱码问题就属实离谱，我必须要重复另存为才能将编码格式转化，有时候还会出现上面的已转变了下面的又出现错误。json也是在请教了别人之后才做出来的，实话实说爬虫我学的并不好，只会简单的一些语句，可能在爬取的过程中格式没注意保存下来的TXT和实际要运用的就会有冲突。

后期：

词云图的生成真的一言难尽，我就使用了echarts3.js，echarts-wordcloud.js，网页就一直不能出来，一直都是这两个的路径问题，导致下面的一直出不来，在这上面我卡了一个下午，最后只能生成及其简陋的东西,比起别人的来说不是很好看。一开始在官网上下载源文件就折腾了很久，后来在git上下载的文件也没啥用，最后的最后在一个网盘上下载了合适的就开始运用在代码上，不过最后那里明明是Copy简书上可以创造出人形的词云图，最后变成了这样，真是让人失望。

上传GIT：

在最后上传crawl的时候有出现需要自己编辑的页面跳出来，需要：wq退出，之后就会正常加载

附件：

总结

还有一些因为历史记录自动删除就找不到了，作业真是百度加咨询加自我理解啊，对我来说不太容易啊真的，光是查资料就不知道花了多久，每天惦记还有多少时间，一直做一直错，错到后面百度都找不到怎么解决，有些错误就很奇葩，怎么变成那样的都不知道。这个还是有教学的比较好一些，自己来弄就是在摸石头过河。

posted @ 2021-02-25 20:31 叫我干嘛阅读(100) 评论(1) 收藏举报

刷新页面返回顶部

叫我干嘛

第一次个人编程作业

前期：

中期：

后期：

上传GIT：

附件：

总结

公告