陈可鑫---第一次个人编程作业

博客班级 2018级计算机和综合实验班
作业要求 第一次个人编程作业
作业目标 采集腾讯视频里电视剧《在一起》的全部评论信息,利用分词器处理数据,生成词云图,并将代码上传GitHub
作业源代码 GitHub
学号 211804203
1、记录
条目 数据
---- ----
代码行数 93行
分析时间 1h
编码时间 3h
2、流程
步骤 具体做法
---- ------------------
数据采集 利用正则表达式爬取全部评论
数据处理 利用jieba分词器进行评论拆分
数据分析 利用worldcloud库生成词云图
上传到GitHub 把代码上传到github上面
3、数据采集
第一题《在一起》评论的爬取及可视化,要爬取的评论数量很大,大批量的爬取很容易被反爬,同一个 user-agent 很容易被禁止。打开网页源代码后,可以发现评论的内容都在 data 的 content 里面,多次点开底部的加载更多可以发现该request url的地址是有规律的。所以尾部的那一串数字加一就是下一页面的url。
4、写代码
先要安装jieba,用pip install jieba安装了五次一直失败。后来问助教,助教发的pip install -i https://mirrors.aliyun.com/pypi/simple/ jieba可以安装成功。然后再通过上学期学的爬虫,用anaconda软件爬取全部的评论。
5、词云图
6、上传到仓库


这个作业太难了!!!!!

posted @ 2021-02-21 22:23  211804203陈可鑫ckx  阅读(115)  评论(8编辑  收藏  举报