随笔档案「2019年2月22日」：scrapy高级操作 ... - 丫丫625202

2019年2月22日

摘要：编辑本随笔一、Scapy核心组件引擎：用来处理整个系统的数据流处理，出发事物管道：负责处理爬虫从网页上提取的实体信息，主要是持久化和验证实体的有效性，清楚不需要的信息。调度器：接受引擎发过来的请求，由它决定下一个要爬取的网址，去处重复网址下载器：下载网页内容，将网页发回给蜘蛛，scrapy 阅读全文

posted @ 2019-02-22 11:05 丫丫625202 阅读(600) 评论(0) 推荐(0)

丫丫625202

公告