Loading

摘要: 四、更新策略 史链更新是网络爬虫中很重要的一个环节,对于时效性比较高的数据来说,更新策略愈发重要。 互联网是实时变化的,具有很强的动态性。网页更新策略主要是决定何时更新之前已经下载过的页面。常见的更新策略又以下三种: 1.历史参考策略 顾名思义,根据页面以往的历史更新数据,预测该页面未来何时会发生变 阅读全文
posted @ 2015-05-10 18:57 北岛知寒 阅读(295) 评论(0) 推荐(0)
摘要: 引入:我们在百度首页输入关键字,百度一下,相关的内容就会立马呈现出来,这个动作的背后到底隐藏着哪些操作? 其实百度的核心搜索引擎就是一个大型的分布式网络爬虫程序。 什么是网络爬虫? 详见: 1.百度百科 2. 维基百科 网络爬虫的主要目的是将互联网上的网页下载到本地形成一个或联网内容的镜像备份。这篇 阅读全文
posted @ 2015-05-10 18:37 北岛知寒 阅读(428) 评论(0) 推荐(0)