摘要: 在学习python协程的过程中,结合生成器函数,实现了新浪新闻的深度爬取,深度爬取可以一边获得新生成的url,一边向URL发出请求,下面上代码 import aiohttpfrom lxml import etreeimport csvimport asyncioimport osfrom logu 阅读全文
posted @ 2021-06-09 17:46 高内聚低耦合 阅读(102) 评论(0) 推荐(0)
摘要: 很多时候,我们只希望在类实例化的时候,只实例化一个对象,这里记录下学习单例设计模式我的实现,应该是最简单和方便的python是实现了 整体思路就是重写构造方法执行之前的__new__方法,这样同时就只会实例化一个对象 运行结果如下: 阅读全文
posted @ 2020-10-06 14:26 高内聚低耦合 阅读(138) 评论(0) 推荐(0)
摘要: 今天第一次遇到const定义的变量,查阅了相关资料整理了这篇文章。主要内容是:js中三种定义变量的方式const, var, let的区别。 1.const定义的变量不可以修改,而且必须初始化。 1 const b = 2;//正确 2 // const b;//错误,必须初始化 3 console 阅读全文
posted @ 2020-10-03 09:57 高内聚低耦合 阅读(149) 评论(0) 推荐(0)
摘要: 在使用scrapy框架爬取某网图片的时候,出现了一个神奇的情况:当rules设置为如下的时候, 最后解析每张图片的回调函数并没被执行 当我把第二个rule的follow参数改为ture,回调函数就开始执行了 后来我找了不少文章,又看了这个子类的源码,原来如果rules会按照从上到下的顺序检测所有获得 阅读全文
posted @ 2020-10-02 01:51 高内聚低耦合 阅读(390) 评论(0) 推荐(0)
摘要: 试试多线程爬取能提高多少性能 单线程爬取180张图片时间大约为60秒左右 下面上多线程代码 import timeimport requestsfrom lxml import etreeimport osfrom multiprocessing.dummy import Poolif __name 阅读全文
posted @ 2020-09-17 23:29 高内聚低耦合 阅读(243) 评论(0) 推荐(0)