Marc Najork和Allan Heydon在他们的Java(可缩放和可扩展的Web搜寻器,称为Mercator)上写了一篇出色的论文。
以下是Mercator网络搜寻器上的一些资源:
Mercator Presentation (pdf)
Mercator Introduction (pdf)
Mercator Web Crawler Paper (pdf)
该查询在Google中的第一个结果:“网络检索内容Najork pdf”
有没有人看过搜寻器的任何实现(最好是Java)?
更新:
我在链接方面遇到了麻烦,我将尝试为参考论文获得更好的链接。但我想我已经修复了。
最佳答案
我发现了一些应该与Mercator非常接近的Java搜寻器:
Nutch是多线程和分布式的。
Heritrix仅是多线程的。
欢迎其他参考。