2018年4月26日

[原创]手把手教你写网络爬虫(7):URL去重

摘要: 手把手教你写网络爬虫(7) 作者:拓海 (https://github.com/tuohai666) 摘要:从零开始写爬虫,初学者的速成指南! 封面: 本期我们来聊聊URL去重那些事儿。以前我们曾使用Python的字典来保存抓取过的URL,目的是将重复抓取的URL去除,避免多次抓取同一网页。爬虫会将 阅读全文

posted @ 2018-04-26 08:51 tuohai666 阅读(4067) 评论(8) 推荐(6) 编辑

导航