摘要: 当我们以Web UI方式使用Heritrix时,点击任务开始(start)按钮时,Heritrix就开始了它的爬取工作.但它的内部执行流程是怎样的呢?别急,下面将慢慢道来.(一)CrawlJobHandler当点击任务开始(start)按钮时,将执行它的startCrawler()方法:if(sAction.equalsIgnoreCase("start")){ // Tell handler to start crawl job handler.startCrawler();}再来看看startCrawler()方法的执行:publicclassCrawlJobHandl 阅读全文
posted @ 2011-11-06 20:07 情非得已swust 阅读(543) 评论(0) 推荐(0)
摘要: 伪装成搜索引擎蜘蛛google bot访问需网站, 这样能防止爬虫被封在crawler-beans.cxml 中修改metadata成下面Java代码 1 <!-- CRAWL METADATA: including identification of crawler/operator --> 2 <bean id="metadata" class="org.archive.modules.CrawlMetadata" autowire="byName"> 3 <property name="o 阅读全文
posted @ 2011-11-06 11:24 情非得已swust 阅读(659) 评论(0) 推荐(0)