07 2019 档案

摘要:scrapy - 给scrapy 的spider 传值 方法一: 在命令行用crawl控制spider爬取的时候,加上-a选项,例如: 然后在spider里这样写: 方法二: 在用scrapyd控制spider的时候,可以向schedule.json发送-d选项加入参数,同样的,也需要在spider 阅读全文
posted @ 2019-07-18 16:51 孔辉 阅读(338) 评论(0) 推荐(0)
摘要:手写分布式爬虫 分布式进程是指将Process进程分布到多台机器上,充分利用多台机器的性能完成复杂的任务。在Python的通过multiprocessing库来完成,该模块不仅支持多进程且还支持将多进程分布到多台机器上。分布式进程就是将把Queue暴露到网络中让其他机器进程可以访问的过程进行了封装, 阅读全文
posted @ 2019-07-16 11:37 孔辉 阅读(577) 评论(0) 推荐(0)