随笔档案「2016年6月8日」：爬虫系列5：scrapy动态页面爬取的另一种思路 ... - jackley

爬虫系列5：scrapy动态页面爬取的另一种思路

摘要：前面有篇文章给出了爬取动态页面的一种思路，即应用Selenium+Firefox（参考《scrapy动态页面爬取》）。但是selenium需要运行本地浏览器，比较耗时，不太适合大规模网页抓取。事实上，还有一种执行效率更高的方法。就是事先分析js发出的GET或者POST... 阅读全文

posted @ 2016-06-08 16:38 jackley 阅读(113) 评论(0) 推荐(0)

摘要：多页面爬取有两种形式。1）从某一个或者多个主页中获取多个子页面的url列表，parse()函数依次爬取列表中的各个子页面。2）从递归爬取，这个相对简单。在scrapy中只要定义好初始页面以及爬虫规则rules，就能够实现自动化的递归爬取。获取子页面url列表的代码示例... 阅读全文

posted @ 2016-06-08 16:35 jackley 阅读(206) 评论(0) 推荐(0)

摘要：本文主要介绍与scrapy应用紧密相关的关键技术，不求很深入，但求能够提取要点。内容包括：1、xpath选择器：选择页面中想要的内容2、rules规则：定义爬虫要爬取的域3、scrapy shell调试：辅助调试工具4、去重设置：内置的防止重复爬取的工具5、防屏蔽：通... 阅读全文

posted @ 2016-06-08 16:33 jackley 阅读(199) 评论(0) 推荐(0)

摘要：本文从一个基础案例入手，较为详细的分析了scrapy项目的建设过程（在官方文档的基础上做了调整）。主要内容如下：0、准备工作1、scrapy项目结构2、编写spider3、编写item.py4、编写pipelines.py5、设置Settings.py6、运行spid... 阅读全文

posted @ 2016-06-08 16:27 jackley 阅读(115) 评论(0) 推荐(0)