2011 年 10月 19 日随笔档案 - 有安科技

2011年10月19日

摘要： 1 scedulescrapy 作为抓取框架，包括了spider,pipeline基础设施2 webkitscrapy 本身不能作为js engine,这就导致很多js生成的页面的数据会无法抓取到，因此，一些通用做法是webkit或者xmi_runner(firefox)。通过这个手段可以对于js生成的数据进行抓取。需要安装的包有python-webkit (相关依赖自行解决)Xvfb (用于非Xwindow环境)3 开发downloader middlewarefrom scrapy.http import Request, FormRequest, HtmlResponseimport . 阅读全文

posted @ 2011-10-19 18:34 有安科技阅读(56225) 评论(0) 推荐(2) 编辑

快速构建实时抓取集群

摘要：定义：首先，我们定义一下定向抓取，定向抓取是一种特定的抓取需求，目标站点是已知的，站点的页面是已知的。本文的介绍里面，主要是侧重于如何快速构建一个实时的抓取系统，并不包含通用意义上的比如链接分析，站点发现等等特性。在本文提到的实例系统里面，主要用到linux+mysql+redis+django+scrapy+webkit，其中scrapy+webkit作为抓取端，redis作为链接库存储，mysql作为网页信息存储，django作为爬虫管理界面，快速实现分布式抓取系统的原型。名词解析：1. 抓取环：抓取环指的是spider在存储中获取url，从互联网上下载网页，然后将网页存储到数据库里面，. 阅读全文

posted @ 2011-10-19 18:31 有安科技阅读(41376) 评论(0) 推荐(0) 编辑

有安科技

官网

公告