摘要: 【请初学者作为参考,不建议高手看这个浪费时间】上一篇文章,我们抓取到了一大批代理ip,本篇文章介绍如何实现downloaderMiddleware,达到随即使用代理ip对目标网站进行抓取的。抓取的目标网站是现在炙手可热的旅游网站 www.qunar.com, 目标信息是qunar的所有seo页面,及页面的seo相关信息。qunar并没有一般网站具有的 robots.txt文件,所以无法利用列表进行抓取,但是,可以发现,qunar的seo页面主要部署在http://www.qunar.com/routes/ 下,这个页面为入口文件,由此页面及此页面上所有带有routes的链接开始递归的抓取所有带 阅读全文
posted @ 2012-08-28 21:49 ~嘉言懿行~~我是煲仔饭~~ 阅读(3556) 评论(8) 推荐(0) 编辑