陈可鑫---第一次个人编程作业
| 博客班级 | 2018级计算机和综合实验班 |
|---|---|
| 作业要求 | 第一次个人编程作业 |
| 作业目标 | 采集腾讯视频里电视剧《在一起》的全部评论信息,利用分词器处理数据,生成词云图,并将代码上传GitHub |
| 作业源代码 | GitHub |
| 学号 | 211804203 |
| 1、记录 | |
| 条目 | 数据 |
| ---- | ---- |
| 代码行数 | 93行 |
| 分析时间 | 1h |
| 编码时间 | 3h |
| 2、流程 | |
| 步骤 | 具体做法 |
| ---- | ------------------ |
| 数据采集 | 利用正则表达式爬取全部评论 |
| 数据处理 | 利用jieba分词器进行评论拆分 |
| 数据分析 | 利用worldcloud库生成词云图 |
| 上传到GitHub | 把代码上传到github上面 |
| 3、数据采集 | |
| 第一题《在一起》评论的爬取及可视化,要爬取的评论数量很大,大批量的爬取很容易被反爬,同一个 user-agent 很容易被禁止。打开网页源代码后,可以发现评论的内容都在 data 的 content 里面,多次点开底部的加载更多可以发现该request url的地址是有规律的。所以尾部的那一串数字加一就是下一页面的url。 | |
| 4、写代码 | |
| 先要安装jieba,用pip install jieba安装了五次一直失败。后来问助教,助教发的pip install -i https://mirrors.aliyun.com/pypi/simple/ jieba可以安装成功。然后再通过上学期学的爬虫,用anaconda软件爬取全部的评论。 | |
![]() |
|
| 5、词云图 | |
![]() |
|
| 6、上传到仓库 | |
![]() |


这个作业太难了!!!!!




浙公网安备 33010602011771号