随笔分类 - scrapy
摘要:修改setting.py文件 spider.py scrapy-redis 默认为get请求,那么post请求如何处理。其实这是考到你会不会变通,知识点就是中间件的process_request,正则匹配需要post请求的url规则,自行使用requests发起请求,返回 scrapy.http.H
阅读全文
摘要:一、中间件的分类 scrapy的中间件理论上有三种(Schduler Middleware,Spider Middleware,Downloader Middleware),在应用上一般有以下两种 1.爬虫中间件Spider Middleware 我们可以在Downloader生成的Response
阅读全文
摘要:下面简单介绍两种部署的方式,crontab定时任务+日志,第二种则是scrapyd+spiderkeeper,更推荐后者,图形界面的方式,管理方便,清晰。 scrapy 开发调试 1、在spiders同目录下新建一个run.py文件,内容如下(列表里面最后可以加上参数,如--nolog) 2、下面命
阅读全文
摘要:一个Item Pipeline 不需要继承特定基类,只需要实现某些特定方法,面向接口。 采用同步的机制写入数据: 采用异步的机制写入代码 数据库连接异常 原因:数据库操作对象实例未注销,但持有的数据库连接已失效,导致后续数据库操作无法进行。 解决:在每次插入数据之前检测连接是否可用Connectio
阅读全文
摘要:1.lxml(转自简书) Element是XML处理的核心类,Element对象可以直观的理解为XML的节点,大部分XML节点的处理都是围绕该类进行的。这部分包括三个内容:节点的操作、节点属性的操作、节点内文本的操作。 1节点操作 1创建节点 root = etree.Element("root")
阅读全文
摘要:创建scrapy项目 创建爬虫文件 scrapy genspider [-t template] <name> <domain> 爬虫进行抓取 “故障排除,调试”
阅读全文