我正在考虑在原始文本上使用 word n-grams 技术。但我有一个疑问:

在文本上应用引理/词干后,使用单词 n-gram 是否有意义?如果不是,为什么我应该只在原始文件上使用单词 n-gram?什么是优点和缺点?

最佳答案

在词形还原或词干提取之后计算单词 n-gram 的原因与您在词干提取之前想要的原因相同。有时这会让你误报,例如(D3),但它通常会以一种你想要这样做的有意义的方式增加召回。

在某些领域,例如短文本,词干提取可能会造成伤害。最好的办法是进行测试,但总的来说,我建议进行词干提取和大小写折叠,但这实际上取决于您的域和查询。

Q=“犯罪记录”

  • D1 = "...有一个 犯罪记录 ..."(词干匹配)
  • D2 = "...发布了 犯罪 记录 ..."(正常匹配)
  • D3 = "...在处理 'Smooth 犯罪 ' 时, 记录 ..."(词干上的错误匹配)

  • 这是一个精度/召回权衡。你可以通过词干(总是)来增加召回率,你可以通过不去词干来提高精确度。但这取决于您所服务的查询类型。例如,如果您正在运行代码搜索,您几乎从不想进行词干或预处理,因为用户希望输入准确的符号名称然后找到它们。

    关于information-retrieval - 在原始文本上或在引理/词干过程之后计算单词 n-gram?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/47219389/

    10-12 20:58