随笔分类 -  spider

爬虫知识
摘要:流程图见沙发 原贴链接:https://www.cnblogs.com/lianxiaoniu/p/7698299.html 先检查是否有API API是网站官方提供的数据接口,如果通过调用API采集数据,则相当于在网站允许的范围内采集,这样既不会有道德法律风险,也没有网站故意设置的障碍;不过调用A 阅读全文
posted @ 2018-05-23 21:46 snailon 阅读(1015) 评论(1) 推荐(0)
摘要:四、scrapy和scrapy-redis1. 描述下scrapy框架运行的机制?答:从start_urls里获取第一批url并发送请求,请求由引擎交给调度器入请求队列,获取完毕后,调度器将请求队列里的请求交给下载器去获取请求对应的响应资源,并将响应交给自己编写的解析方法做提取处理:1. 如果提取出 阅读全文
posted @ 2018-05-18 16:09 snailon 阅读(155) 评论(0) 推荐(0)
摘要:1. 描述下scrapy框架运行的机制?答:从start_urls里获取第一批url并发送请求,请求由引擎交给调度器入请求队列,获取完毕后,调度器将请求队列里的请求交给下载器去获取请求对应的响应资源,并将响应交给自己编写的解析方法做提取处理:1. 如果提取出需要的数据,则交给管道文件处理;2. 如果 阅读全文
posted @ 2018-05-17 20:24 snailon 阅读(223) 评论(0) 推荐(0)