scrapy框架入门 - huxiaofeng - 博客园

scrapy框架入门

　　scrapy迄今为止依然是世界上最好用，最稳定的爬虫框架，相比于其他直接由函数定义的程序， scrapy使用了面向对象并对网页请求的过程分成了很多个模块和阶段，实现跨模块和包的使用，大大提升了代码的稳定性和可操作性。那么scrapy将网页请求过程分成以下这么多步骤和模块：

我们需要将网页url传入spider
spider将url传输给引擎，引擎将url封装成requests请求
将引擎封装好的请求直接传递给操作器，由操作器中形成队列传输给下载器
下载器会发送requests请求到服务器中，并得到一个responce，responce继续返回到spider中
spider对responce进行解析（xpath，css）
spide会将解析好的数据再次发送给引擎，再由引擎将解析好的数据传递给pipelines
pipelines里面可以对数据进行储存（mysql， mongodb， csv）

上文就是对scrapy工作流程的介绍，基本以后使用到爬虫框架都离不开这套流程

posted on 2022-03-06 22:35 huxiaofeng 阅读(37) 评论(0) 收藏举报

刷新页面返回顶部

导航

公告