我正在探索如何使用Wikipedia的分类信息从内容中提取标签/关键字。

我找到了有关DBPedia的文章。 DBpedia是社区的一项工作,旨在从Wikipedia中提取结构化信息,并使该信息在Web上可用。

有没有人使用过他们的网络服务?您知道它们如何工作以及它的可靠性吗?

最佳答案

DBpedia 是一种很棒的高质量资源。为了将您的内容变成一组相关的DBpedia概念,您将需要在文本中准确地识别它们,这至少涉及两个步骤:

  • 识别内容中的DBpedia概念:这包括识别文本中的概念名称(和备用名称),并在每个短语的所有可能含义之间进行歧义消除。术语“太阳”根据其disambiguation page可以指代数十种可能的概念,包括星号,报纸,人名等。这涉及实体标识,分类和链接。
  • 标识哪些概念很有趣:例如,当文本包含术语“the”(即The重定向到)时,是否要显示“定冠词”概念?

  • 您可能需要考虑一个预先存在的文本分析库或服务,该库或服务支持将实体链接到DBpedia。主题索引的一种出色工具是Maui,它是Alyona Medelyan在其博士期间开发的。另一个很棒的开源解决方案是同一所大学的David Milne的Wikipedia Miner

    提供链接到DBpedia概念的两个商业服务是ZemantaExtractiv(允许一定程度的免费使用)。 DBpedia spotlight选项。其他可能提供这些功能的列在:https://stackoverflow.com/questions/2119279/is-there-a-better-tool-than-opencalais

    披露:我[曾经]在Extractiv(已终止)工作,该工作由Language Computer Corporation的NLP支持。

    关于dbpedia - 如何使用DBPedia从内容中提取标签/关键字?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/4747990/

    10-13 01:15