2016年6月8日

摘要: 前面有篇文章给出了爬取动态页面的一种思路,即应用Selenium+Firefox(参考《scrapy动态页面爬取》)。但是selenium需要运行本地浏览器,比较耗时,不太适合大规模网页抓取。事实上,还有一种执行效率更高的方法。就是事先分析js发出的GET或者POST... 阅读全文

posted @ 2016-06-08 16:38 jackley 阅读(104) 评论(0) 推荐(0)

摘要: 多页面爬取有两种形式。1)从某一个或者多个主页中获取多个子页面的url列表,parse()函数依次爬取列表中的各个子页面。2)从递归爬取,这个相对简单。在scrapy中只要定义好初始页面以及爬虫规则rules,就能够实现自动化的递归爬取。获取子页面url列表的代码示例... 阅读全文

posted @ 2016-06-08 16:35 jackley 阅读(189) 评论(0) 推荐(0)

摘要: 本文主要介绍与scrapy应用紧密相关的关键技术,不求很深入,但求能够提取要点。内容包括:1、xpath选择器:选择页面中想要的内容2、rules规则:定义爬虫要爬取的域3、scrapy shell调试:辅助调试工具4、去重设置:内置的防止重复爬取的工具5、防屏蔽:通... 阅读全文

posted @ 2016-06-08 16:33 jackley 阅读(191) 评论(0) 推荐(0)

摘要: 本文从一个基础案例入手,较为详细的分析了scrapy项目的建设过程(在官方文档的基础上做了调整)。主要内容如下:0、准备工作1、scrapy项目结构2、编写spider3、编写item.py4、编写pipelines.py5、设置Settings.py6、运行spid... 阅读全文

posted @ 2016-06-08 16:27 jackley 阅读(103) 评论(0) 推荐(0)