随笔分类 - spider
爬虫知识
摘要:流程图见沙发 原贴链接:https://www.cnblogs.com/lianxiaoniu/p/7698299.html 先检查是否有API API是网站官方提供的数据接口,如果通过调用API采集数据,则相当于在网站允许的范围内采集,这样既不会有道德法律风险,也没有网站故意设置的障碍;不过调用A
阅读全文
摘要:四、scrapy和scrapy-redis1. 描述下scrapy框架运行的机制?答:从start_urls里获取第一批url并发送请求,请求由引擎交给调度器入请求队列,获取完毕后,调度器将请求队列里的请求交给下载器去获取请求对应的响应资源,并将响应交给自己编写的解析方法做提取处理:1. 如果提取出
阅读全文
摘要:1. 描述下scrapy框架运行的机制?答:从start_urls里获取第一批url并发送请求,请求由引擎交给调度器入请求队列,获取完毕后,调度器将请求队列里的请求交给下载器去获取请求对应的响应资源,并将响应交给自己编写的解析方法做提取处理:1. 如果提取出需要的数据,则交给管道文件处理;2. 如果
阅读全文
浙公网安备 33010602011771号