在理解字符串匹配时:词干和去复数化之间的确切区别是什么?
还是它们是同一意思?
最佳答案
首先,词干是指将单词还原为词干的过程。但是,这可能意味着许多不同的事情。大多数语言学家至少区分两种方法:
因此, depluralization 是一个非常不常见的术语,但显然是指删除复数词素(例如“computers”末尾的“-s”),它是词干的一部分,特别是a去除语法(但不是派生)语素的一部分。
在英语中,名词的形态在很大程度上限于复数形式(“计算机”)和属格形式(第二种情况,即“计算机的”),因此就英语而言,去复数化可以被视为与(几乎)同义(语法)词干,至少在某种程度上将词干应用到名词以及形容词上(例如在信息检索的上下文中)。但是,无论在何处考虑动词,过去时,被动语态和其他屈折形式都可能受到阻止(但不复数化)。
此外,在英语以外的其他语言中,甚至名词也可能具有非常丰富的形态,包括用于格,礼貌程度或特殊复数形式(例如对偶)的词素。然后,去复数化(如果您想完全使用该术语)将仅指整个词干提取过程的一小部分。
另一个相关的术语是 lemmatization ,通常与和同义词使用。我发现很多人(包括我自己)都可以做到的两个区别是:
(但是,并非所有人都同意这一区别。)
关于nlp - 词干和去复数化之间的区别,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/10298231/