郑俊男---第一次编程作业
| 博客班级 | 2018级计算机和综合实验班 |
|---|---|
| 作业要求 | 作业链接 |
| 作业目标 | 采集“在一起”的评论,信息处理一下,词云图,上传github |
| 作业源代码 | github地址 |
| 学号 | 211806247 |
流程
| 步骤 | 时间 |
|---|---|
| 爬取评论 | 1h |
| jieba分词 | 2h |
| 生成词云图 | 4h |
| 上传github | 1.5h |
1.爬取《在一起》评论
进入腾讯视频评论区,按F12,对比发现只有last_id是不同的
打开js界面,有v2开头的点开可以看到如下界面


内容保存在comment.txt中,代码如下

2.数据处理:用jieba进行分词,代码如下

3.生成云词图
全程最难的地方了,因为之前没学过,所以自己研究了好久。

4.上传至github



自己连续做5次commit,就不截图了


总结
1.新的东西太多了,都需要时间去研究
2.对爬虫还是很生疏
3.助教对我们太好了,很耐心的回答我们的问题
参考资料
解决办法:error: failed to push some refs to 'https://github.com/xxxx.git'
『NLP自然语言处理』中文文本的分词、去标点符号、去停用词、词性标注

浙公网安备 33010602011771号