随笔分类 - 爬虫
摘要:爬虫方案设计(三) 仅供个人交流学习使用,禁止转载,严禁商用!!!任何商业用途与本人无关! 本篇的任务是爬取上篇获得的视频底下的评论。 爬取目标: 主要是针对不同的错误进行处理,把不能处理的错误存储在日志中,尽量保证程序发生错误保证不会意外停止,同时爬取速度不会过快,还不会发生遗漏。 一般出现的错误
阅读全文
摘要:爬虫方案设计(二) 仅供个人交流学习使用,禁止转载,严禁商用!!!任何商业用途与本人无关! 根据上一篇博客的分析,围绕着三要素来设计程序。 本篇的任务是爬取创作者上传的视频信息。 爬取策略: 第一种:遍历创作者id的合理范围(目前只实现了); 第二种:广度遍历有人气的创作者或者每个视频主题的代表创作
阅读全文
摘要:爬虫方案设计(一) 算不上爬虫教程。仅供个人交流学习使用,禁止转载,严禁商用!!!任何商业用途与本人无关! 任务: 爬取某视频网站的内容 目标: 遍历视频作品 遍历视频作品的所有评论 构建用户观看历史记录(通过评论去分析曝光,因为弹幕数据没有用户id信息,因此不作为分析目标) 数据简单分析及其可视化
阅读全文
摘要:本教程浅入深出,有详细的参考资料来提高,有简单的入门资料能你快速掌握并使用。 欢迎联系转载,以及补充。 官网介绍:MongoDB是为现代应用程序开发人员和云时代构建的通用、基于文档的分布式数据库。 选取这个数据库的理由: python接口使用方便(丰富的 JSON 文档,支持嵌套对象,最自然、最高效
阅读全文

浙公网安备 33010602011771号