• 博客园logo
  • 会员
  • 周边
  • 新闻
  • 博问
  • 闪存
  • 众包
  • 赞助商
  • Chat2DB
    • 搜索
      所有博客
    • 搜索
      当前博客
  • 写随笔 我的博客 短消息 简洁模式
    用户头像
    我的博客 我的园子 账号设置 会员中心 简洁模式 ... 退出登录
    注册 登录
阿健后院
博客园    首页    新随笔    联系   管理    订阅  订阅
03 2014 档案
浅谈 Scrapy 爬虫(二)

摘要:越写越像官方文档的翻译,偏离了初衷。写一些官方文档里没有的内容吧。 在不限制宽带的环境下,根据页面的大小, Scrapy 一秒能爬取40-70个页面,一天在400万到600万页面。也就是说 Scrapy 应付千万级或者亿级的爬取没有问题。 Scrapy 主要限制是select函数,在其他方面优化完美的情况下,大概有60%-70%的CPU花费在select上,剩下10%花费在框... 阅读全文
posted @ 2014-03-17 22:15 阿健后院 阅读(5504) 评论(2) 推荐(1)
浅谈Scrapy爬虫(一)

摘要:以下谈论的 scrapy 基于 0.20.2 版本(当前最新版本是 0.22.0 ),python 2.7.6。 开发环境是windows 7 sp1。 互联网上比较有价值的参考资料 1. Scrapy入门教程 对官网文档的翻译,主要讲了 scrapy 的基本使用。创建一个工程,使用 item 和 spider 。我们会简单涉及到官方教程的内容。 2. 使用scrapy进行大规模抓... 阅读全文
posted @ 2014-03-16 22:49 阿健后院 阅读(1501) 评论(0) 推荐(0)

博客园  ©  2004-2026
浙公网安备 33010602011771号 浙ICP备2021040463号-3