在R中使用stemDocument {SnowBallC}时,我发现它将在单词的结尾将字母y更改为字母i,例如:

> stemDocument('sleepy', language='english')
[1] "sleepi"

我想知道如何防止这种情况发生?

谢谢,

最佳答案

hunspell软件包具有更好的词干:

> library(hunspell)
> hunspell_stem("sleepy", dict = "en_US")
[[1]]
[1] "sleepy"

> hunspell_analyze("sleepy", dict = "en_US")
[[1]]
[1] " st:sleepy"

关于r - 为什么stemDocument将结尾的“y”更改为“i”?如何停止呢?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/36393046/

10-09 06:44