spider - 随笔分类 - snailon

[转载]大规模爬虫流程总结,经验总结

摘要：流程图见沙发原贴链接:https://www.cnblogs.com/lianxiaoniu/p/7698299.html 先检查是否有API API是网站官方提供的数据接口，如果通过调用API采集数据，则相当于在网站允许的范围内采集，这样既不会有道德法律风险，也没有网站故意设置的障碍；不过调用A 阅读全文

posted @ 2018-05-23 21:46 snailon 阅读(1018) 评论(1) 推荐(0)

爬虫面试资料

摘要：四、scrapy和scrapy-redis1. 描述下scrapy框架运行的机制？答：从start_urls里获取第一批url并发送请求，请求由引擎交给调度器入请求队列，获取完毕后，调度器将请求队列里的请求交给下载器去获取请求对应的响应资源，并将响应交给自己编写的解析方法做提取处理：1. 如果提取出阅读全文

posted @ 2018-05-18 16:09 snailon 阅读(157) 评论(0) 推荐(0)

spider基础知识

摘要：1. 描述下scrapy框架运行的机制？答：从start_urls里获取第一批url并发送请求，请求由引擎交给调度器入请求队列，获取完毕后，调度器将请求队列里的请求交给下载器去获取请求对应的响应资源，并将响应交给自己编写的解析方法做提取处理：1. 如果提取出需要的数据，则交给管道文件处理；2. 如果阅读全文

posted @ 2018-05-17 20:24 snailon 阅读(223) 评论(0) 推荐(0)

随笔分类 - spider

公告