我用pagerank在我的电脑上建立了一个小型搜索引擎的原型。我对在上面建立一个知识图很感兴趣,它应该只返回在正确上下文中被查询的网页,类似于google如何找到搜索问题的相关答案。我看到了很多关于知识图的宣传,但是没有很多文献,也几乎没有像伪代码那样的指南。有人知道这样的知识图如何在内部工作的很好的参考资料吗,这样就不需要创建关于知识图的模型了?
最佳答案
知识图是一个流行语。它是将各种模型和技术结合起来以达到某种效果的总和。
旅程的第一站从Natural language processing、Ontologies和Text mining开始。这是人工智能的一个广阔领域,对该领域的研究进行了综述。
在构建自己的模型之前,我建议您使用专用工具箱(如here)尝试不同的标准算法。您将了解tf idf、lda、文档特征向量等。
我假设你想处理文本数据,如果你想用其他图像进行图像搜索,那就不一样了。音频部分也一样。
建立模型只是第一步,谷歌知识图中最困难的部分是每天实际扩展到数十亿个请求……
一个好的处理管道可以“轻松”地构建在gensim“当前的gen hadoop”之上。它提供了一个弹性的分布式数据存储,如果您想扩展它,这是必需的。
如果你想像图论(如pagerank)那样将数据保存为一个图形,以便进行实时查询,我建议你使用Apache Spark这是一个框架,它“类似于图形的orm,但不是sql,而是使用图形遍历语言gremlin来查询数据库”。例如,您可以将后端从neo4j切换到openrdf(在进行本体时非常有用)。
对于图形分析,您可以使用spark、Bulbs模块或GraphX。
希望有帮助。