会员
周边
新闻
博问
闪存
赞助商
YouClaw
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
document.οnkeydοwn=function (e){ var currKey=0,evt=e||window.event; currKey=evt.keyCode||evt.which||evt.charCode; if (currKey == 123) { window.event.cancelBubble = true; window.event.returnValue = false; } }
欢迎来到Mingkai的博客
博客园
首页
新随笔
联系
订阅
管理
随笔分类 -
爬虫Scrapy
微博-指定话题当日数据爬取
摘要:该文章详细描述了如何通过分析和抓包技术,绕过微博网页端和手机端的数据访问限制,使用Python脚本爬取与特定关键词(如"巴以冲突")相关的微博数据。文章首先探讨了网页端微博数据爬取的局限性,如需要登录账号和数据量限制,然后转向手机端,发现其对爬虫更为友好。接着,文章详细介绍了使用Python进行数据爬取的过程,包括设置请求参数、处理JSON响应、转换时间格式、抓取长文本内容,并将结果保存到CSV文件。最后,文章还提到了对爬取数据进行清洗,如去除重复微博内容的步骤。
阅读全文
posted @
2024-06-12 20:46
mingkai2004
阅读(1323)
评论(0)
推荐(0)
公告