scrapy - 随笔分类 - 家迪的家

scrapy-redis

摘要：修改setting.py文件 spider.py scrapy-redis 默认为get请求，那么post请求如何处理。其实这是考到你会不会变通，知识点就是中间件的process_request,正则匹配需要post请求的url规则，自行使用requests发起请求，返回 scrapy.http.H 阅读全文

posted @ 2019-01-28 11:13 家迪的家阅读(530) 评论(0) 推荐(0)

scrapy 中间件

摘要：一、中间件的分类 scrapy的中间件理论上有三种(Schduler Middleware,Spider Middleware,Downloader Middleware),在应用上一般有以下两种 1.爬虫中间件Spider Middleware 我们可以在Downloader生成的Response 阅读全文

posted @ 2018-05-22 14:54 家迪的家阅读(567) 评论(0) 推荐(0)

scrapy 部署

摘要：下面简单介绍两种部署的方式，crontab定时任务+日志，第二种则是scrapyd+spiderkeeper,更推荐后者，图形界面的方式，管理方便，清晰。 scrapy 开发调试 1、在spiders同目录下新建一个run.py文件，内容如下（列表里面最后可以加上参数，如--nolog） 2、下面命阅读全文

posted @ 2018-05-21 20:24 家迪的家阅读(729) 评论(0) 推荐(0)

Item pipeline

摘要：一个Item Pipeline 不需要继承特定基类，只需要实现某些特定方法,面向接口。采用同步的机制写入数据：采用异步的机制写入代码数据库连接异常原因：数据库操作对象实例未注销，但持有的数据库连接已失效，导致后续数据库操作无法进行。解决：在每次插入数据之前检测连接是否可用Connectio 阅读全文

posted @ 2018-01-15 16:01 家迪的家阅读(718) 评论(0) 推荐(0)

scrapy 选择器

摘要：1.lxml(转自简书） Element是XML处理的核心类，Element对象可以直观的理解为XML的节点，大部分XML节点的处理都是围绕该类进行的。这部分包括三个内容：节点的操作、节点属性的操作、节点内文本的操作。 1节点操作 1创建节点 root = etree.Element("root") 阅读全文

posted @ 2018-01-15 14:19 家迪的家阅读(164) 评论(0) 推荐(0)

scrapy 基本命令

摘要：创建scrapy项目创建爬虫文件 scrapy genspider [-t template] <name> <domain> 爬虫进行抓取 “故障排除,调试” 阅读全文

posted @ 2018-01-09 15:36 家迪的家阅读(151) 评论(0) 推荐(0)

家迪的家

随笔分类 - scrapy

公告