2018-12-17-Python全栈开发-day99-scrapy源码

基于twisted。

 

1.制作start_request,

  封装url和callback(这个callback为parse),并且将start_request对象放入到队列

  调用socket生成函数

2.socket生成函数

  从队列中拿到对象,使用getpage生成socket进行访问,将这个socket放入scrawlling,然后调用自定义callback

3.自定义callback

  将这个socket从正在爬取的列表scrawlling删除

  将socket返回值传给parse,

  得到parse的值,确认是否有request对象,如果有则进行处理:

      将request对象放入队列

 

4.判断结束条件

  正在爬取的列表为空且队列中也为空时,callback=none

posted @ 2018-12-17 21:37  brownbearye  阅读(110)  评论(0)    收藏  举报