您知道Porter2词干分析器的任何Java实现(或用Java编写的更好的词干分析器)吗?我知道这里有一个Java版本的Porter(不是Porter2):

http://tartarus.org/~martin/PorterStemmer/java.txt

但是在http://tartarus.org/~martin/PorterStemmer/上,作者提到Porter有点过时了,建议使用Porter2,网址为:

http://snowball.tartarus.org/algorithms/english/stemmer.html

但是,我的问题是此Porter2是用雪球编写的(我以前从未听说过,所以对此一无所知)。我正在寻找的是它的Java版本。

谢谢。您的帮助将受到他的高度赞赏。

最佳答案

Snowball算法可作为Java download获得

snowball.tartarus.org:



这就是你想要的,对吗?

您可以这样创建它的实例:

  Class stemClass = Class.forName("org.tartarus.snowball.ext." + lang + "Stemmer");
  stemmer = (SnowballProgram) stemClass.newInstance();
  stemmer.setCurrent("your_word");
  stemmer.stem();
  String your_stemmed_word = stemmer.getCurrent();

10-08 03:43