cut-offiteration在OpenNLP中进行培训的含义是什么?或自然语言处理。我只需要外行解释这些术语。据我认为,迭代是算法被重复执行的次数,截止值是一个值,这样,如果某个文本的某个特定类别的值高于该截止值,它将被映射到该类别。我对吗?

最佳答案

正确的是,术语“迭代”是指迭代算法的一般概念,其中人们着手通过连续产生(希望越来越精确)近似的“理想”解决方案来解决问题。一般而言,迭代次数越多,结果将越准确(“更好”),但是当然必须执行更多的计算步骤。

截止(又称截止频率)一词用于指定一种减小n-gram语言模型大小的方法(如OpenNLP所使用的,例如其词性标记器)。考虑以下示例:

Sentence 1 = "The cat likes mice."
Sentence 2 = "The cat likes fish."
Bigram model = {"the cat" : 2, "cat likes" : 2, "likes mice" : 1, "likes fish" : 1}


如果在此示例中将截止频率设置为1,则n元语法模型将减小为

Bigram model = {"the cat" : 2, "cat likes" : 2}


也就是说,截止方法从语言模型中删除了训练数据中很少出现的n-gram。有时有必要减小n-gram语言模型的大小,因为甚至更大的语料库(更不用说三字组,4-gram等)的数量也会激增。然后,根据给定的信息,剩余信息(n克计数)可用于统计估计单词(或其POS标签)的概率。
(n-1)
以前
字(或POS标签)。

08-06 04:40