作者:Komoriii
链接:https://www.zhihu.com/question/56924570/answer/471366573
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
第一步:找到视频视频的cid
我的方法是postman请求视频的所在页面。
通过搜索功能找到视频cid
第二步:http获取弹幕的xml文件
https://comment.bilibili.com/{$cid}.xml 这个是bilibili弹幕的开放API,把找到的cid填上就可以获取到弹幕啦
我用的是Python,写程序的思路就是用requests库获取xml,然后beautifulsoup4提取弹幕正文
爬弹幕的目的是想用弹幕的文本搭配RNN做弹幕聚类,今天刚刚开坑
EvanMu96/bilibili_danmako_cluster欢迎小伙伴加入讨论学习