王妹华——第一次个人编程作业

博客班级 2018级计算机和综合实验班>
作业要求 <第一次个人编程作业>
作业目标 <数据采集、分析、利用分词器处理数据,生成词云,将代码上传到Github>
作业源代码 Github地址
学号 <211806237>

一、流程

  • 时间记录
步骤 时间分布
需求分析 1~2h
数据采集与处理 5h
代码编写 5h+
代码行数 100+

二、数据的采集与处理

  • 采集腾讯视频《在一起》的全部评论信息
  1. 首先我们要对该网页的request请求进行分析,这种网页是异步加载的,Fn+F12和Fn+F5查找规律并或得数据

    下拉网页查看更多评论,会或得新的响应

    发现只有cursor字段的值和最后尾部的数据会发生改变,cursor的值隐藏在上一层数据的last字段中,而尾部数值每次+1

  2. 使用爬虫爬取评论:
    发现规律之后就开始使用正则爬取,将爬取到的数据保存到comments.json文件中

  3. 数据处理
    使用jieba第三方库对句子做精确的分词处理,用字典数据类型临时存储,统计数量

  4. 生成词云图
    结合js插件echarts.js和echarts-wordcloud.min.js完成index.html

三、Github

1.新建一个文件夹“first-personal-work”、右击鼠标,点击“Git Bash Here”,打开git命令行。

  1. 克隆仓库到本地: git clone

  1. 进入克隆的文件夹: cd first-personal-work

  1. 新建分支: git switch -c crawl

  1. 将上传的文件拖进文件夹
  2. 上传文件: git add .(.为上传文件的名字)
  3. 提交: git commi -m "提交信息"

8.推送: git push


9.切换回主分支:git checkout main


10.合并分支: git merge chart

最后结果

四、遇到的问题和总结

问题主要是数据采集与处理,因为基础不好,然后查阅了资料,求助了大佬,卡了很久,制作词云由于之前没有学习过,且官网没有找到关于词云图的实例,就去百度了模板。在做的过程中发现自己所掌握的东西太少了,很多方面都需要加强学习,我爱度娘,要是所有东西都和秃头一样简单就好了。

五、参考文献

Python爬虫实战:爬取腾讯视频的评论
jieba“结巴”中文分词:做最好的 Python 中文分词组件
关于Echarts词云图自定义形状
git创建分支提交远程分支,将分支branch合并到主干master

posted @ 2021-02-24 16:31  王妹华  阅读(124)  评论(1)    收藏  举报