2018 年 11月 4 日随笔档案 - eastonliu

2018年11月4日

摘要：测试了下，采用单进程爬取5000条数据大概需要22分钟，速度太慢了点。我们把脚本改进下，采用多进程。首先获取所有要爬取的URL，在这里不建议使用集合，字典或列表的数据类型来保存这些URL，因为数据量太大，太消耗内存，这里，python的生成器就发挥作用了。在使用多进程之前，有两个问题需要解决：阅读全文

posted @ 2018-11-04 15:24 eastonliu 阅读(1131) 评论(0) 推荐(0) 编辑

eastonliu

记录测试路上的点点滴滴~

公告