摘要: ## 分布式爬虫 ### 1、概览 该项目使用kafka和redis构建分布式爬虫集群。在多个spider实例间分发url的种子,这些请求通过redis进行协同。由于边界扩展或深度遍历的特点,任何其他抓取这些触发器的内容也将在集群中的所有工作程序之间分发。 系统的输入是一组Kafka主题,输出是一组Kafka主题。原始HTML和资源以交互方式,spider和日志输出方式进行爬网。 ### ... 阅读全文
posted @ 2018-09-10 19:15 大道至简(老徐) 阅读(1038) 评论(0) 推荐(0)
摘要: ## 爬虫 ### 1、设计 分布式爬虫系统允许位于多个不同主机上的爬虫程序并行爬取提交的爬虫作业,进而协调他们之间的爬取能力。爬取队列由redis管理,每个spider通过修改的调度程序从queue中拉取job。 页面被spider成功爬取后,就交给管线进行进一步处理。如果页面没有成功爬取,重试中间件重新提交页面给后端queue,以备由其他爬虫进行重试爬取。 link spider是分布... 阅读全文
posted @ 2018-09-10 19:15 大道至简(老徐) 阅读(683) 评论(0) 推荐(0)