摘要: 一、架构原理及运行流程 1.1 架构图解 1.2 模块分析 1.3 运行流程 二、URL 管理器 2.1 实现原理 URL 管理器主要包括两个变量,一个是已爬取 URL 的集合,另一个是未爬取 URL 的集合。采用 Python 中的 set 类型,主要是使用 set 的去重复功能, 防止链接重复爬 阅读全文
posted @ 2018-12-19 14:50 梦醒时分c 阅读(1320) 评论(0) 推荐(1)