在理解字符串匹配时:词干和去复数化之间的确切区别是什么?

还是它们是同一意思?

最佳答案

首先,词干是指将单词还原为词干的过程。但是,这可能意味着许多不同的事情。大多数语言学家至少区分两种方法:

  • 除去语法语素,但不除去衍生语素。语法语素是单词的组成部分,与它在特定句子(例如,英语)中的语法作用有关。数字,大小写,性别,时态,方面等。
  • 删除语法和衍生语素。衍生语素是单词的组成部分,与它从另一个单词(例如,英语)的派生相关。 “工作者”中的“-er”与它是如何从“工作”中派生(或可以认为是派生的)有关。

  • 因此, depluralization 是一个非常不常见的术语,但显然是指删除复数词素(例如“computers”末尾的“-s”),它是词干的一部分,特别是a去除语法(但不是派生)语素的一部分。

    英语中,名词的形态在很大程度上限于复数形式(“计算机”)和属格形式(第二种情况,即“计算机的”),因此就英语而言,去复数化可以被视为与(几乎)同义(语法)词干,至少在某种程度上将词干应用到名词以及形容词上(例如在信息检索的上下文中)。但是,无论在何处考虑动词,过去时,被动语态和其他屈折形式都可能受到阻止(但不复数化)。

    此外,在英语以外的其他语言中,甚至名词也可能具有非常丰富的形态,包括用于格,礼貌程度或特殊复数形式(例如对偶)的词素。然后,去复数化(如果您想完全使用该术语)将仅指整个词干提取过程的一小部分。

    另一个相关的术语是 lemmatization ,通常与同义词使用。我发现很多人(包括我自己)都可以做到的两个区别是:
  • 词干用于指基于的基于规则或基于机器学习的技术,该技术去除了看起来像语法语素
  • 的单词部分(主要是结尾)
  • 词法化用于表示相同的过程,但是使用该语言的实际字典来处理高度不规则的形式(例如复数“women”)

  • (但是,并非所有人都同意这一区别。)

    关于nlp - 词干和去复数化之间的区别,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/10298231/

    10-13 00:03