会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
HHello_World
博客园
首页
新随笔
联系
订阅
管理
2017年8月2日
爬虫基础
摘要: 基本架构:调度器,url管理器,网页下载器,网页解析器 调度器:启动爬虫,关闭爬虫,监视爬虫的进度 url管理器:管理待爬取的URL和已爬取的URL 需要支持:添加新URL到待爬取集合 判断待添加URL是否已经被爬取 获取待爬取URL,判断是否还有带爬取的URL 被爬取之后将该URL从待爬取集合移动
阅读全文
posted @ 2017-08-02 18:30 HHello_World
阅读(257)
评论(0)
推荐(0)
公告