Marc Najork和Allan Heydon在他们的Java(可缩放和可扩展的Web搜寻器,称为Mercator)上写了一篇出色的论文。

以下是Mercator网络搜寻器上的一些资源:


Mercator Presentation (pdf)
Mercator Introduction (pdf)
Mercator Web Crawler Paper (pdf)
该查询在Google中的第一个结果:“网络检索内容Najork pdf”


有没有人看过搜寻器的任何实现(最好是Java)?

更新:
我在链接方面遇到了麻烦,我将尝试为参考论文获得更好的链接。但我想我已经修复了。

最佳答案

我发现了一些应该与Mercator非常接近的Java搜寻器:


Nutch是多线程和分布式的。
Heritrix仅是多线程的。


欢迎其他参考。

10-01 20:13