陈可鑫---第一次个人编程作业
博客班级 | 2018级计算机和综合实验班 |
---|---|
作业要求 | 第一次个人编程作业 |
作业目标 | 采集腾讯视频里电视剧《在一起》的全部评论信息,利用分词器处理数据,生成词云图,并将代码上传GitHub |
作业源代码 | GitHub |
学号 | 211804203 |
1、记录 | |
条目 | 数据 |
---- | ---- |
代码行数 | 93行 |
分析时间 | 1h |
编码时间 | 3h |
2、流程 | |
步骤 | 具体做法 |
---- | ------------------ |
数据采集 | 利用正则表达式爬取全部评论 |
数据处理 | 利用jieba分词器进行评论拆分 |
数据分析 | 利用worldcloud库生成词云图 |
上传到GitHub | 把代码上传到github上面 |
3、数据采集 | |
第一题《在一起》评论的爬取及可视化,要爬取的评论数量很大,大批量的爬取很容易被反爬,同一个 user-agent 很容易被禁止。打开网页源代码后,可以发现评论的内容都在 data 的 content 里面,多次点开底部的加载更多可以发现该request url的地址是有规律的。所以尾部的那一串数字加一就是下一页面的url。 | |
4、写代码 | |
先要安装jieba,用pip install jieba安装了五次一直失败。后来问助教,助教发的pip install -i https://mirrors.aliyun.com/pypi/simple/ jieba可以安装成功。然后再通过上学期学的爬虫,用anaconda软件爬取全部的评论。 | |
5、词云图 | |
6、上传到仓库 | |
这个作业太难了!!!!!