余思波---第一次个人编程作业

博客班级	2018计算机和综合实验班
作业要求	作业要求
作业目标	进行数据采集腾讯视频《在一起》的全部评论信息并进行分析处理生成词云图，并用git上传至自己的代码库
作业源代码	Github地址
学号	211814413

一、时间分配

过程	时间
分析题目	1h
查找资料	3h
编写代码	5h
与同学讨论	0.75h

二、数据采集

在看到题目时就知道是要用上学期的爬虫知识写代码，但是基础不好导致自己做起来比较困难，重新复习了一遍爬虫ajax和正则，参考了那些学习好的大佬的代码，慢慢研究勉强弄了出来。

通过访问《在一起》评论页面，按下F12并重新刷新页面。

通过规律发现source的值是每次增加1，因此在代码中爬取“加载更多评论”中的代码只需要改变source的值。获取评论的方法则使用了正则表达式，并将爬取到的评论保存至本地文档。

三、数据处理

三种分词器中使用了jieba分词器进行数据处理，用easy_install jieba进行安装，在安装完成后直接import jieba导入进行使用，进行分词。

四、数据展示

对JavaScript基础也不好，借鉴别人的进行了修改，虽然基础不好但不断努力下，把处理后的数据代入后最终实现了词云图。

五、总结

基础不好，每做一步都有一步的困难，花了很多时间也还是弄不清楚的，还好最好有弄出个结果。唉，希望自己要多多努力学！

六、参考资料

Python入门：jieba库的使用

GitHub创建仓库，拉取项目，提交代码，创建分支，合并分支，删除仓库以及分支

『NLP自然语言处理』中文文本的分词、去标点符号、去停用词、词性标注

Python爬虫| 实战爬取腾讯视频评论

ECharts的词云图wordCloud

posted @ 2021-02-24 15:36 ··Yogo·· 阅读(88) 评论(1) 收藏举报

刷新页面返回顶部