Believe in yourself.

摘要: 测试了下,采用单进程爬取5000条数据大概需要22分钟,速度太慢了点。我们把脚本改进下,采用多进程。 首先获取所有要爬取的URL,在这里不建议使用集合,字典或列表的数据类型来保存这些URL,因为数据量太大,太消耗内存,这里,python的生成器就发挥作用了。 在使用多进程之前,有两个问题需要解决: 阅读全文
posted @ 2018-11-04 15:24 eastonliu 阅读(1131) 评论(0) 推荐(0) 编辑