摘要:
重新访问策略 网络具有动态性很强的特性。抓取网络上的一小部分内容可能会花费真的很长的时间,通常用周或者月来衡量。当爬虫完成它的抓取的任务以后,很多操作是可能会发生的,这些操作包括新建,更新和删除。 从搜索引擎的角度来看,不检测这些事件是有成本的,成本就是我们仅仅拥有一份过时的资源。最常使用的成本函数 阅读全文
posted @ 2018-07-05 18:02
coder-2017
阅读(213)
评论(0)
推荐(0)

浙公网安备 33010602011771号