文章分类 -  scrapy

scrapy源码系列之Item
摘要:以下以及后续所有的源码都是基于scrapy1.0.2,并且会涉及到一些python基础和模块。scrapystartprojectspiderpoject生成一个工程,整个目录结构如下图。item.py用来定义数据模型,每个item是继承scrapy.Item,查看scrapy/item.py@si... 阅读全文
posted @ 2015-08-15 13:54 twelfthing 阅读(2054) 评论(0) 推荐(0)
scrapy使用经验总结
摘要:接着上一篇继续聊scrapy。断断续续的使用scrapy已经很长时间,在各种问题也算是有所领悟(所需工具firefox,firebug,firefox的xpath插件)。1.非标准的html解析问题(上一篇提到过),这个问题蛋疼不是问题有多难解决,而是很难定位到错误的原因。在firefox中确保xp... 阅读全文
posted @ 2015-07-05 22:11 twelfthing 阅读(7540) 评论(3) 推荐(0)
scrapy
摘要:在编程语言的世界里,python似乎被贴上了做爬虫的一个标签,强而有力。而scrapy做为另一个老牌的开源项目,更是大规模抓取不可或缺的一个重要力量。纵使scrapy依旧有一些长期无法解决的诟病,但是他在抓取过程帮程序员解决的一系列的细节问题,还是有无以伦比的优势。缺点1. 重量级scrapy依赖于... 阅读全文
posted @ 2015-07-04 15:35 twelfthing 阅读(3168) 评论(0) 推荐(0)