随笔档案「2011年11月6日」：Web UI方式启动Heritrix的处理流程 ... - 情非得已swust

2011年11月6日

摘要：当我们以Web UI方式使用Heritrix时,点击任务开始(start)按钮时,Heritrix就开始了它的爬取工作.但它的内部执行流程是怎样的呢?别急,下面将慢慢道来.(一)CrawlJobHandler当点击任务开始(start)按钮时,将执行它的startCrawler()方法:if(sAction.equalsIgnoreCase("start")){ // Tell handler to start crawl job handler.startCrawler();}再来看看startCrawler()方法的执行:publicclassCrawlJobHandl 阅读全文

posted @ 2011-11-06 20:07 情非得已swust 阅读(545) 评论(0) 推荐(0)

heritrix3 伪装成google进行爬取

摘要：伪装成搜索引擎蜘蛛google bot访问需网站, 这样能防止爬虫被封在crawler-beans.cxml 中修改metadata成下面Java代码 1  2 <bean id="metadata" class="org.archive.modules.CrawlMetadata" autowire="byName"> 3 <property name="o 阅读全文

posted @ 2011-11-06 11:24 情非得已swust 阅读(665) 评论(0) 推荐(0)

情非得已swust

公告