随笔分类 - 爬虫Scrapy

微博-指定话题当日数据爬取

摘要：该文章详细描述了如何通过分析和抓包技术，绕过微博网页端和手机端的数据访问限制，使用Python脚本爬取与特定关键词（如"巴以冲突"）相关的微博数据。文章首先探讨了网页端微博数据爬取的局限性，如需要登录账号和数据量限制，然后转向手机端，发现其对爬虫更为友好。接着，文章详细介绍了使用Python进行数据爬取的过程，包括设置请求参数、处理JSON响应、转换时间格式、抓取长文本内容，并将结果保存到CSV文件。最后，文章还提到了对爬取数据进行清洗，如去除重复微博内容的步骤。阅读全文

posted @ 2024-06-12 20:46 mingkai2004 阅读(1323) 评论(0) 推荐(0)

欢迎来到Mingkai的博客

随笔分类 - 爬虫Scrapy

公告