摘要: 分布式爬虫 一 介绍 原来scrapy的Scheduler维护的是本机的任务队列(存放Request对象及其回调函数等信息)+本机的去重队列(存放访问过的url地址) 所以实现分布式爬取的关键就是,找一台专门的主机上运行一个共享的队列比如Redis,然后重写Scrapy的Scheduler,让新的S 阅读全文
posted @ 2019-11-29 23:49 可乐'不加冰 阅读(479) 评论(0) 推荐(0) 编辑
摘要: MongoDB是一款强大、灵活、且易于扩展的通用型数据库 一。安装 Mongofdb 1.https://www.mongodb.com/download-center/community 2.如图 下一步 下一步 下一步 下一步 下一步 下一步 下一步 # 注意(windows版本哦)如果没有下载 阅读全文
posted @ 2019-11-29 00:16 可乐'不加冰 阅读(260) 评论(0) 推荐(0) 编辑
摘要: 1。pymongo 链接数据库 # pycharm 链接我们的mogodb # 下载pymongo from pymongo import MongoClient # 客户端请求 服务端 # 链接 client = MongoClient('localhost', 27017) 2 。use db( 阅读全文
posted @ 2019-11-29 00:15 可乐'不加冰 阅读(411) 评论(0) 推荐(0) 编辑