2020年2月16日
摘要: 爬虫的不同抓取策略,就是利用不同的方法确定待抓取URL队列中URL优先顺序的。 爬虫的抓取策略有很多种,但不论方法如何,基本目标一致:优先选择重要网页进行抓取。 网页的重要性,评判标准不同,大部分采用网页的流行性进行定义。 效果较好或有代表性的抓取策略: 1、宽度优先遍历策略 2、非完全PageRa 阅读全文
posted @ 2020-02-16 17:27 yeahle 阅读(1284) 评论(0) 推荐(0)
摘要: 这个系列的文章是一只试图通过产品角度出发去理解复杂庞大搜索引擎的汪写出来的,不足之处很多,欢迎广大技术、非技术同学阅读后指正错误,我们一起探讨共同进步。 本篇主要介绍搜索引擎的架构、网络爬虫、及索引建立。 一、搜索引擎基本信息 1.1 什么是搜索引擎 通俗来讲就是从互联网海量信息中捞出用户感兴趣的内 阅读全文
posted @ 2020-02-16 09:13 yeahle 阅读(800) 评论(0) 推荐(0)