我正在尝试使用 MFCC、它们的 deltas 和 delta-deltas 从语音中构建一个基本的情感检测器。许多论文都谈到通过在这些特征上训练 GMM 来获得良好的准确性。
我似乎找不到一个现成的包来做同样的事情。我确实在 Python、Voicebox 和 Matlab 中的类似工具包和 Rmixmod、stochmod、mclust、mixtools 和 R 中的其他一些包中使用了 scilearn。从训练数据计算 GMM 的最佳库是什么?
最佳答案
具有挑战性的问题是训练数据,其中包含嵌入到特征集中的情感信息。测试信号中应使用封装情绪的相同特征。使用 GMM 进行的测试只能作为您的通用背景模型。根据我通常使用 GMM 的经验,您只能将男性女性和一些独特的演讲者分开。简单地将 MFCC 输入 GMM 是不够的,因为 GMM 不保存时变信息。因为除了频率变化 MFCC 参数之外,情感语音将包含时变参数,例如音调和音调随周期的变化。我并不是说以当前的技术状态不可能,而是以一种好的方式进行挑战。
关于r - 从 MFCC 训练 GMM 的库,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/15437214/