2018-12-17-Python全栈开发-day99-scrapy源码
基于twisted。
1.制作start_request,
封装url和callback(这个callback为parse),并且将start_request对象放入到队列
调用socket生成函数
2.socket生成函数
从队列中拿到对象,使用getpage生成socket进行访问,将这个socket放入scrawlling,然后调用自定义callback
3.自定义callback
将这个socket从正在爬取的列表scrawlling删除
将socket返回值传给parse,
得到parse的值,确认是否有request对象,如果有则进行处理:
将request对象放入队列
4.判断结束条件
正在爬取的列表为空且队列中也为空时,callback=none

浙公网安备 33010602011771号