徐鑫泽---第一次个人编程作业

这个作业属于哪个课程	<2018 级计算机和综合实验班>
这个作业要求在哪里	<作业要求的链接>
这个作业的目标	<数据采集，可视化，前端>
作业源代码	first-personal-work
学号	<211808579>
计划安排
步骤	计划时间
----------	--------------------------------------
理解作业要求	30分钟
计划如何完成	30分钟
相关资料的学习	2天
创建仓库并连接	15分钟
编写爬虫代码	1天
词频统计及json转化	半天
制作此云图	半天
git上传	1小时

编写爬虫

首先进入网页观察评论源码

对网页进行分析发现每当点击更多评论时会发现有新地址跳出

通过比较网址发现只有 cursor 和 source 进行了改变，其他是不变的，source 是在第一个的基础上进行加一操作，所以只需要获取到 cursor 即可。

编写爬取内容

3. 编写json

在做词频统计的时候，在import jieba时出现问题

然而在终端下载时显示已经下载过jieba，通过百度了解到可能因为默认的安装路径不对，而直接在终端下载
可能会面临网络不稳定等多种因素（本人亲自下了几次都失败了，又慢又完不成），于是乎下载国内的镜像，并且修改下载路径终于可以使用jieba。

参考网页

pycharm安装jieba包(中文词分解析)
呜。。。这个jieba真的花了我太多时间了

而后进行频数统计在完成代码的过程中遇到报错“UnicodeDecodeError: 'utf-8' codec can't decode byte”一时间也不知道如何
解决，最后搜索得到了解答

python 报错"UnicodeDecodeError: 'utf-8' codec can't decode byte"的解决办法

哈哈正如他所说的“原文件的编码方式是“ANSI”. 哦哦哦哦哦哦哦哦哦哦哦。。。。不报错才怪呢！”

制作词云图

在顺利完成js之后，就到了词云图的环节，在这里我要感谢我的同学李明特，他在这个环节帮到了我许多，还给我提供了一个比较丰富的资源，并且跟我讲解了制作词云图的方法，这可以说是到现在为止比较顺利的缓解了！！

将所有文件上传到远程仓库

将所有的文件一一git add 到暂存区，在经过 get commit -m 上传

合并分支

最后git push 将所有文件传输到远程仓库中

个人总结
总的来说这次的作业并不算顺利，有许多爬虫的知识都遗忘了，需要拿书现学。
对于git的操作和用途了解很少，很难快速准确的达到要求。
在库的安装上花费了比较多的时间，需要加强练习。

posted @ 2021-02-27 00:28 SeryKK 阅读(75) 评论(2) 收藏举报

刷新页面返回顶部