随笔档案「2014年3月」 - 阿健后院

03 2014 档案

摘要：越写越像官方文档的翻译，偏离了初衷。写一些官方文档里没有的内容吧。在不限制宽带的环境下，根据页面的大小， Scrapy 一秒能爬取40-70个页面，一天在400万到600万页面。也就是说 Scrapy 应付千万级或者亿级的爬取没有问题。 Scrapy 主要限制是select函数，在其他方面优化完美的情况下，大概有60%-70%的CPU花费在select上，剩下10%花费在框... 阅读全文

posted @ 2014-03-17 22:15 阿健后院阅读(5504) 评论(2) 推荐(1)

浅谈Scrapy爬虫（一）

摘要：以下谈论的 scrapy 基于 0.20.2 版本（当前最新版本是 0.22.0 ），python 2.7.6。开发环境是windows 7 sp1。互联网上比较有价值的参考资料 1. Scrapy入门教程对官网文档的翻译，主要讲了 scrapy 的基本使用。创建一个工程，使用 item 和 spider 。我们会简单涉及到官方教程的内容。 2. 使用scrapy进行大规模抓... 阅读全文

posted @ 2014-03-16 22:49 阿健后院阅读(1501) 评论(0) 推荐(0)