我想抓特定的东西。特别是正在发生的事件,例如音乐会,电影,美术馆开幕等。人们可能会花时间去做的任何事情。

如何实现搜寻器?

我听说过Grub(grub.org-> Wikia)和Heritix(http://crawler.archive.org/)

还有其他吗?

每个人都有什么意见?

-杰森

最佳答案

关于该主题的出色介绍文字是Introduction to Information Retrieval(在线提供全文)。它有一章关于Web crawling,但也许更重要的是,它为要处理的已爬网文档提供了基础。

nlp - 上网-LMLPHP
(来源:stanford.edu)

关于nlp - 上网,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/728006/

10-11 04:20