首先下载heritrix-1.14.4.zip文件,可以在http://sourceforge.net/projects/archive-crawler/files/heritrix3/下载。下载后解压到某个位置,然后进入conf,修改heritrix.properties文件 heritrix.cmdline.admin = admin:admin。账户和密码是用冒号隔开的。
heritrix.cmdline.port = 8080。默认端口号是8080,可以自己修改。然后将conf下的文件jmxremote.password.template拷贝到heritrix-1.14.4的根目录下,并修改文件名为jmxremote.password,修改最后两行代码
monitorRole admin
controlRole admin
将该文件属性设置为只读。在bin文件夹下创建一个start.bat的文件里面内容是heritrix.cmd --admin=admin:admin。
然后双击start.bat,启动报错了。
Heritrix failed to start properly. Possible causes:
- Login and password have not been specified (see --admin switch)
- another program uses the port for the web UI (8080 by default)
(e.g. another Heritrix instance)
- JMX password file is missing or permissions not set correctly
Do you want to try to fix the permissions (Y/N)?
问你是否修复权限y/n
Restart Heritrix (Y/N)?
问你是否重启heritrix,结果弹出两个窗口,按任意键继续...
其实就是没有访问jmxremote.password的权限。修改jmxremote.password的权限。右键-->属性-->安全-->高级-->所有者-->编辑,选择当前用户,应用、确定。再双击start.bat启动。
启动成功了 控制台显示
..........
Heritrix version: 1.14.4
打开http://localhost:8080进入到登录页面。用户名:admin.密码:admin
已经成功进入Heritrix的管理页面了。