我想计算字符串中字符出现的可能性。例如给定字符串“ test”,我想获取P(test)。
P(test) = p(t) * p(e|t) * p (s|te) * p(t|es)
我已经计算了超过10万个字符串的各种Bigram频率,并计算了它们出现的概率。我的问题是,仅将n-gram的概率乘以字符串,我将得到准确的答案,还是找到更好的答案呢?
非常感谢您的帮助。
最佳答案
使用二元语法,您的答案将与second-order Markov chain一样准确。对于这样一个简单的模型,结果出奇地好,但当然,使用更具表现力的模型,您甚至可以做得更好。例如,在语言建模中,经常使用Hidden Markov Models (HMMs)。