我想抓特定的东西。特别是正在发生的事件,例如音乐会,电影,美术馆开幕等。人们可能会花时间去做的任何事情。
如何实现搜寻器?
我听说过Grub(grub.org-> Wikia)和Heritix(http://crawler.archive.org/)
还有其他吗?
每个人都有什么意见?
-杰森
最佳答案
关于该主题的出色介绍文字是Introduction to Information Retrieval(在线提供全文)。它有一章关于Web crawling,但也许更重要的是,它为要处理的已爬网文档提供了基础。
(来源:stanford.edu)
关于nlp - 上网,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/728006/