2011年10月19日

scrapy结合webkit抓取js生成的页面

摘要: 1 scedulescrapy 作为抓取框架,包括了spider,pipeline基础设施2 webkitscrapy 本身不能作为js engine,这就导致很多js生成的页面的数据会无法抓取到,因此,一些通用做法是webkit或者xmi_runner(firefox)。通过这个手段可以对于js生成的数据进行抓取。需要安装的包有python-webkit (相关依赖自行解决)Xvfb (用于非Xwindow环境)3 开发downloader middlewarefrom scrapy.http import Request, FormRequest, HtmlResponseimport .阅读全文

posted @ 2011-10-19 18:34 Safe3 阅读(55254) 评论(0) 编辑

快速构建实时抓取集群

摘要: 定义:首先,我们定义一下定向抓取,定向抓取是一种特定的抓取需求,目标站点是已知的,站点的页面是已知的。本文的介绍里面,主要是侧重于如何快速构建一个实时的抓取系统,并不包含通用意义上的比如链接分析,站点发现等等特性。在本文提到的实例系统里面,主要用到linux+mysql+redis+django+scrapy+webkit,其中scrapy+webkit作为抓取端,redis作为链接库存储,mysql作为网页信息存储,django作为爬虫管理界面,快速实现分布式抓取系统的原型。名词解析:1. 抓取环:抓取环指的是spider在存储中获取url,从互联网上下载网页,然后将网页存储到数据库里面,.阅读全文

posted @ 2011-10-19 18:31 Safe3 阅读(40894) 评论(0) 编辑

导航

公告