是否可以直接从数据库或服务等将URL导入Nutch。我对从数据库或服务中获取数据并将其写入seed.txt的方式不感兴趣。
最佳答案
不能。这不能直接使用默认的nutch代码库来完成。您需要修改Injector.java来实现。
编辑:
尝试使用DBInputFormat:InputFormat从SQL表读取输入数据。您需要在此处修改Inject代码(以下代码段的第3行):
JobConf sortJob = new NutchJob(getConf());
sortJob.setJobName("inject " + urlDir);
FileInputFormat.addInputPath(sortJob, urlDir);
sortJob.setMapperClass(InjectMapper.class);