是否有一个简单易用的Java库,该库可以接受一个String并返回一组Strings,这些Strings是关键字/关键词。

它不必特别聪明,只需使用停用词和词干匹配关键字即可。

我正在查看KEA软件包http://code.google.com/p/kea-algorithm/,但我不知道如何使用它们的代码。

理想的情况是,简单的示例文件很少。同时,我将着手编写此文件!

编辑:当我说我看不到如何弄清楚如何使用他们的代码时,我的意思是我看不到一种简单的方法。单个类本身具有有用的方法,可以完成许多工作。

最佳答案

这是一个相当老的问题,可能是OP已经解决了他的问题,但是将其放置在这里,供其他可能偶然发现该问题以寻找如何使用KEA的人使用。

对于KEA,您将需要一套培训-您的某些文档将需要设置关键字。培训数据由文档目录(.txt文件)和相应的关键字文件(.key文件)组成,每行一个关键字。您可以在此集合上训练KEA,然后使用该模型提取其余文档的关键字,这些文档位于.txt文件的另一个目录中。 KEA将在此目录中写出相应的.key文件。

有关更多信息,请查看以下一项或多项:

1)KEA源代码发行版包含一个TestKEA.java类,该类显示了如何从小型测试语料库中提取关键字。自述文件包含所需目录格式的详细信息。

2)这篇博客文章(有点简洁的IMO)说明了如何使用KEA。

http://kea-pranay.blogspot.com/2010/02/kea-key-extraction-algorithm.html

3)我上个周末写的博客文章,试图学习如何从我拥有的语料库中生成关键字(这些语料已经用关键字手动注释)。它具有Python代码,可以按KEA期望的方式预处理数据,Scala(KEA提供Java API)代码可以训练和运行提取器,Python代码可以分析和可视化生成的关键字。

http://sujitpal.blogspot.com/2014/08/keyword-extraction-with-kea.html

08-24 13:59