摘要: 在爬虫系统中,待抓取URL队列是很重要的一部分,待抓取URL队列中的URL以什么样的顺序排队列也是一个很重要的问题,因为这涉及到先抓取哪个页面,后抓取哪个页面。而决定这些URL排列顺序的方法,叫做抓取策略。下面是常用的两种策略:深度优先、广度优先 scrapy框架默认的是深度优先算法 深度优先与广度 阅读全文
posted @ 2018-11-29 10:39 Corey0606 阅读(329) 评论(0) 推荐(0) 编辑