我正在探索如何使用Wikipedia的分类信息从内容中提取标签/关键字。
我找到了有关DBPedia的文章。 DBpedia是社区的一项工作,旨在从Wikipedia中提取结构化信息,并使该信息在Web上可用。
有没有人使用过他们的网络服务?您知道它们如何工作以及它的可靠性吗?
最佳答案
DBpedia 是一种很棒的高质量资源。为了将您的内容变成一组相关的DBpedia概念,您将需要在文本中准确地识别它们,这至少涉及两个步骤:
您可能需要考虑一个预先存在的文本分析库或服务,该库或服务支持将实体链接到DBpedia。主题索引的一种出色工具是Maui,它是Alyona Medelyan在其博士期间开发的。另一个很棒的开源解决方案是同一所大学的David Milne的Wikipedia Miner。
提供链接到DBpedia概念的两个商业服务是Zemanta和Extractiv(允许一定程度的免费使用)。 DBpedia spotlight选项。其他可能提供这些功能的列在:https://stackoverflow.com/questions/2119279/is-there-a-better-tool-than-opencalais
披露:我[曾经]在Extractiv(已终止)工作,该工作由Language Computer Corporation的NLP支持。
关于dbpedia - 如何使用DBPedia从内容中提取标签/关键字?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/4747990/