我需要开发一个垂直搜索引擎作为网站的一部分。搜索引擎的数据来自特定类别的网站。我想为此,我需要一个搜寻器来搜寻几个(数百个)网站(在特定业务类别中)并提取产品和服务的内容以及网址。其他类型的页面可能不相关。大多数站点很小或很小(最多几百页)。产品具有10到30个属性。
关于如何编写这样的搜寻器和提取器的任何想法。我使用常规的ruby库编写了一些爬虫和内容提取器,但没有完整的搜索引擎。我猜想,搜寻器会不时醒来并从网站下载页面。当然,将遵循通常的礼貌行为,例如检查机器人的排除规则。内容提取器可以在读取页面后更新数据库。如何同步搜寻器和提取器?它们应该紧密集成在一起吗?
最佳答案
Nutch建立在Lucene之上,并且已经实现了搜寻器和多个文档解析器。
您也可以hook it to Hadoop以实现可伸缩性。
关于search - 为垂直搜索引擎开发搜寻器和抓取器,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/1084444/