给定一个我们假设的(英语)单词为复数,是否有可能导出单数形式?如果可能的话,我想避免查找/字典表。
一些例子:
示例->示例一个简单的“s”后缀
小故障->小故障的'es'后缀,而不是上面的
国家->国家“ies”后缀。
绵羊->绵羊无变化:不确定的值可能会回退
或者,this seems to be a fairly exhaustive list.
只要是开源的,就可以使用x
语言的库建议(即,以便有人可以检查它们以确定如何使用y
语言)。
最佳答案
这实际上取决于您“以编程方式”的含义。英语的一部分工作于易于理解的规则,而另一部分则没有。它主要与频率有关。对于简短的概述,您可以阅读Pinker的“单词和规则”,但请帮自己一个忙,不要完全将语言学的整个生成理论深深铭记在心。那里的经验主义远比那种思想流派真正有助于追求的要多。
许多英语都可以在统计上进行词素化。顺便说一句,词干或词条限制是您要寻找的术语。 Morpha Lemmatizer是最有效的词条生成器,它可以处理基于频率的异常启动的统计规则。如果您有一个项目需要这种类型的字符串来简化表示英语的特定术语,则可以尝试一下。
在规范相关术语方面,还有更多幼稚的方法可以完成很多工作。看一看Porter Stemmer,它足以有效地将大多数英语术语组合在一起。
关于language-agnostic - 您能以编程方式检测英语单词的复数形式并得出单数形式吗?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/1377020/