我正在处理语音识别任务。到目前为止,我一直在使用Google Cloud Speech Recognition API(在Python中),效果良好。 API返回confidence value以及转录文本的每个块。置信度是docs中所述的0到1之间的数字,但是我没有找到关于Google API如何得出此数字的更深入的解释,因此我认为它某种程度上来自进行识别的神经网络。

我要采取的下一步是制作自己的(离线)自动语音识别程序,我发现pyKaldi应该可以胜任该任务。我尚未开始对其进行编程,但我想事先知道(出于研究目的)-Kaldi是否可以像Google Speech-to-Text API一样返回一些类似的信心值?真正的“信心”是什么?如何计算?

最佳答案

是的,pyKaldi支持使用最小贝叶斯风险(MBR)计算的置信度值(单词置信度分数)。您将在文档中找到所有必要的信息。
这是模块说明的链接:

https://pykaldi.github.io/api/kaldi.lat.html?highlight=mbr#module-kaldi.lat.sausages

顾名思义,它是一个置信度值,但它并不表示从音频块序列中导出(或以概率设置)给出的单词的结果文本输出是多么“正确”。在我看来,表达性或意义有点模糊,并取决于模型和训练数据(噪声,混响等)的质量。比较替代方案很有意义,告诉您价值较高的替代方案更可能是正确的替代方案。反过来,这带来了一个问题,即哪个距离会产生明显差异。单个置信度值不会告诉您任何信息,也不能仅基于它们的置信度值来比较两个不同的识别器模型。微软称其为“相反,置信度得分提供了一种机制,用于比较给定输入的多个识别替代项的相对准确性。这有助于返回最准确的识别结果。”

10-05 17:47