郑俊男---第一次编程作业

博客班级 2018级计算机和综合实验班
作业要求 作业链接
作业目标 采集“在一起”的评论,信息处理一下,词云图,上传github
作业源代码 github地址
学号 211806247

流程

步骤 时间
爬取评论 1h
jieba分词 2h
生成词云图 4h
上传github 1.5h

1.爬取《在一起》评论
进入腾讯视频评论区,按F12,对比发现只有last_id是不同的
打开js界面,有v2开头的点开可以看到如下界面


内容保存在comment.txt中,代码如下

2.数据处理:用jieba进行分词,代码如下

3.生成云词图
全程最难的地方了,因为之前没学过,所以自己研究了好久。

4.上传至github



自己连续做5次commit,就不截图了

总结
1.新的东西太多了,都需要时间去研究
2.对爬虫还是很生疏
3.助教对我们太好了,很耐心的回答我们的问题

参考资料
解决办法:error: failed to push some refs to 'https://github.com/xxxx.git'
『NLP自然语言处理』中文文本的分词、去标点符号、去停用词、词性标注

posted @ 2021-02-26 02:24  男俊  阅读(89)  评论(3)    收藏  举报