我读过一些关于HMM和MFCC的期刊和论文,但是我仍然对它如何与我的数据集(句子音频数据集)一步一步地工作感到困惑。
我的数据集示例(音频表单):
你好早上好
祝你考试顺利

约343个音频数据和20个扬声器(6800个音频数据)
我只知道:
我的句子数据集用来得到转换概率
嗯状态是音素
39个MFCC特征用于训练HMM模型
我的问题:
我需要把我的句子剪成单词还是仅仅用句子训练
嗯,模特?
我需要火车的电话数据集吗?如果是的话,我需要训练它也用嗯?如果不是,我的程序如何识别HMM预测输入的音素?
我必须先做些什么?
注意:我使用python,我使用hmmlearn和python_speech_特性作为我的库。

最佳答案

我需要把我的句子剪成单词还是仅仅用句子来训练HMM模型?
理论上你只需要句子和音素。但是单独的单词可能对你的模型有用(它增加了你的训练数据的大小)
我需要火车的电话数据集吗?如果是的话,我需要训练它也用嗯?如果不是,我的程序如何识别HMM预测输入的音素?
您需要音素,否则如果您的模型没有任何孤立音素的示例,则很难找到正确的音素分段。你应该首先在孤立的音素上训练你的HMM状态,然后添加其余的数据。如果你有足够的数据,你的模型可能可以学习没有孤立的音素例子,但我不会在这一点上击败。
我必须先做些什么?
建立你的音素实例,并使用它们来训练一个简单的HMM模型,而不是建立音素之间的转换模型。一旦你的隐藏状态有了一些关于音素的信息,你就可以继续学习孤立的单词和句子了。

关于python - 如何使用语音识别数据集训练HMM以进行语音识别?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/51165305/

10-11 07:38
查看更多