2013年11月25日

nutch fetcher.server.delay

摘要: 1 配置因素 fetcher.server.delay 0.0 The number of seconds the fetcher will delay between successive requests to the same server.2 机器人协议因素FetchItemQueue fiq = fetchQueues.getFetchItemQueue(fit.queueID); fiq.crawlDelay = rules.getCrawlDelay(); if (LOG.isDebugEnabled()) {... 阅读全文

posted @ 2013-11-25 16:34 雨渐渐 阅读(234) 评论(0) 推荐(0)

nutch -crawldelay-fetcher.server.delay的控制因素

摘要: 1 除了配置文件中 fetcher.server.delay fetcher.server.delay 0.0 The number of seconds the fetcher will delay between successive requests to the same server.2 来自机器人协议的约束 FetchItemQueue fiq = fetchQueues.getFetchItemQueue(fit.queueID); fiq.crawlDelay = rules.getCrawlDelay(); ... 阅读全文

posted @ 2013-11-25 16:32 雨渐渐 阅读(180) 评论(0) 推荐(0)

nutch Fetcer阶段详解

摘要: job.setSpeculativeExecution(false); 抓网页阶段,不允许同一个任务运行多次,否则,网页就抓重了为了充分利用闲置资源,加快map 和 reduce 的执行,于是有SpeculativeExecution机制,同时运行多个map 或 reduce,先运行完的获胜,其他的干掉 阅读全文

posted @ 2013-11-25 11:42 雨渐渐 阅读(245) 评论(0) 推荐(0)

导航