余思波---第一次个人编程作业

博客班级 2018计算机和综合实验班
作业要求 作业要求
作业目标 进行数据采集腾讯视频《在一起》的全部评论信息并进行分析处理生成词云图,并用git上传至自己的代码库
作业源代码 Github地址
学号 211814413

 

 

 

 

 

 

 

 

 

一、时间分配

 

过程 时间
分析题目 1h
查找资料 3h
编写代码 5h
与同学讨论 0.75h

 

 

 

 

 

 

 

二、数据采集

 

       在看到题目时就知道是要用上学期的爬虫知识写代码,但是基础不好导致自己做起来比较困难,重新复习了一遍爬虫ajax和正则,参考了那些学习好的大佬的代码,慢慢研究勉强弄了出来。

        通过访问《在一起》评论页面,按下F12并重新刷新页面。

       通过规律发现source的值是每次增加1,因此在代码中爬取“加载更多评论”中的代码只需要改变source的值。获取评论的方法则使用了正则表达式,并将爬取到的评论保存至本地文档。

 

三、数据处理

       三种分词器中使用了jieba分词器进行数据处理,用easy_install jieba进行安装,在安装完成后直接import jieba导入进行使用,进行分词。

 

 

四、数据展示

        对JavaScript基础也不好,借鉴别人的进行了修改,虽然基础不好但不断努力下,把处理后的数据代入后最终实现了词云图。

 

 

五、总结

       基础不好,每做一步都有一步的困难,花了很多时间也还是弄不清楚的,还好最好有弄出个结果。唉,希望自己要多多努力学!

 

六、参考资料

      Python入门:jieba库的使用

      GitHub创建仓库,拉取项目,提交代码,创建分支,合并分支,删除仓库以及分支

       『NLP自然语言处理』中文文本的分词、去标点符号、去停用词、词性标注

      Python爬虫| 实战爬取腾讯视频评论

      ECharts的词云图wordCloud

 

posted @ 2021-02-24 15:36  ··Yogo··  阅读(86)  评论(1)    收藏  举报