如何爬取B站弹幕(转载)

作者:Komoriii
链接:https://www.zhihu.com/question/56924570/answer/471366573
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

第一步:找到视频视频的cid

我的方法是postman请求视频的所在页面。

通过搜索功能找到视频cid

第二步:http获取弹幕的xml文件

https://comment.bilibili.com/{$cid}.xml 这个是bilibili弹幕的开放API,把找到的cid填上就可以获取到弹幕啦

我用的是Python,写程序的思路就是用requests库获取xml,然后beautifulsoup4提取弹幕正文

 

爬弹幕的目的是想用弹幕的文本搭配RNN做弹幕聚类,今天刚刚开坑

EvanMu96/bilibili_danmako_cluster欢迎小伙伴加入讨论学习

posted @ 2020-12-19 22:51  ww411  阅读(1673)  评论(0)    收藏  举报