【crawler】heritrix 3 使用

2012-11-30 15:50 Loull 阅读(397) 评论(0) 收藏举报

https://webarchive.jira.com/wiki/display/Heritrix/A+Quick+Guide+to+Running+Your+First+Crawl+Job

1、下载heritrix3后解压

2、命令行到bin目录 >heritrix.cmd –a admin:admin启动

可以用heritrix --help 查看帮助

3、打开浏览器地址 127.0.0.1:8443 即可使用，用户名密码是上面打的admin, admin （以前版本好像是127.0.0.1:8080）

我在浏览器上不能访问，查看了下异常，发现时安全http什么的，就用地址https://127.0.0.1:8443

4、在主页，create 一个job

然后再job中 edit 配置configuration

在里面的

1）、metadata.operatorContactUrl=http://www.archive.org 这儿不是seed url

2）、populate the <prop> element of the longerOverrides bean with the seed values for the crawl。

这人放的是seed urls

然后 save

5、依次build、launch、unpause就开始了

刷新页面返回顶部

Loull