摘要: 阅读别人的python源码时碰到了这个yield这个关键字,各种搜索终于搞懂了,在此做一下总结: 通常的for…in…循环中,in后面是一个数组,这个数组就是一个可迭代对象,类似的还有链表,字符串,文件。它可以是mylist = [1, 2, 3],也可以是mylist = [x*x for x i 阅读全文
posted @ 2024-01-04 17:40 珊瑚贝博客 阅读(1193) 评论(0) 推荐(0)
摘要: 正常流程(如下图)是,引擎(engine)将url交给下载器(downloader),下载器来 进行数据下载,如果我们想导入selenium, 那么必须要阻断这个过程,并有selenium来代替,我们就需要通过修改downloadmiddleware中的process_request来实现。 阅读全文
posted @ 2024-01-04 17:34 珊瑚贝博客 阅读(47) 评论(0) 推荐(0)
摘要: 来源:http://www.shanhubei.com/archives/8595.html 一、pipeline中常用的方法 1. process_item(self,item,spider) 管道类中必须有的函数 实现对item数据的处理 必须return item 2. open_spider 阅读全文
posted @ 2024-01-04 17:17 珊瑚贝博客 阅读(113) 评论(0) 推荐(0)