如何将Solr与Heritrix集成在一起?

我想使用Heritrix归档站点,然后使用solr索引并在本地搜索此文件。

谢谢

最佳答案

使用Solr进行索引的问题在于它是一个纯文本索引(如果您仅在爬网内部网站而不关心“pagerank”,那可能会很好)。

使用Nutch将为您提供更好的索引,但是因为它确实使用了pagerank。

NutchWAX

但是,如果您对使用Heritrix不满意,并且想要基于页面排名的搜索结果,则可以使用NutchWAX(Nutch Web存档扩展名)来索引Heritrix的输出(这就是Heritrix的制造商正在做的事情)。

NutchWAX适用于Web存档,但也可用于创建实时Web的搜索引擎(实际上,这很容易,因为您无需在每次重建索引时拖累数年的数据)。

Solr

如果确实要使用Heritrix + Solr创建搜索网站,则可能应该用将页面内容提交给Solr的自定义处理器替换Heritrix中的“ARCWriter”处理器。

Solr端只是通过HTTP发布的XML文件,非常简单。

Heritrix端稍微复杂一点,但是Developer's Manual可以帮助您开始为Heritrix 1.x编写处理器(如果您使用的是-不稳定的3.x-或已停产的2.x-您将需要做一些额外的工作,因为该文档尚不存在。)

07-24 09:35