摘要: 一、概述 1.中间件的作用 在scrapy运行的整个过程中,对scrapy框架运行的某些步骤做一些适配自己项目的动作. 例如scrapy内置的HttpErrorMiddleware,可以在http请求出错时做一些处理. 2.中间件的使用方法 配置settings.py.详见scrapy文档 http 阅读全文
posted @ 2018-03-23 14:46 Masako 阅读(6538) 评论(2) 推荐(0) 编辑
摘要: 一、安装 pip install scrapy. 如果提示需要什么包就装什么包 有的包pip安装不起,需要自己下载whl文件进行安装. 二、基本的爬虫流程 通用爬虫有如下几步: 构造url -->> 请求,获取页面内容 -->> 分析页面内容(解析) -->> 保存结果 三、scrapy的爬虫流程 阅读全文
posted @ 2018-03-23 11:08 Masako 阅读(331) 评论(0) 推荐(0) 编辑