我正在一个需要从音频流中提取MFCC功能的项目中。该项目主要由分类组成,尽管为了扩展我们的数据集,我正在研究一种检测算法,以隔离我们希望分类的声音部分。
我正在测试不同的表示形式,并且由于数据的性质(我希望我可以提供更多详细信息,但是我很确定与我合作的教授希望将其保密),我可以想象在MFCC系数会有所帮助。
我正在提取40个MFCC系数以及40个Delta系数,并将其用于检测。我有一组训练数据,其中包括一个40毫秒的窗口,该窗口以我感兴趣的音频流的部分为中心。然后,我将对该数据进行GMM训练。
为了测试(及其实际用例),我将更长的音频流(大约2秒)分成了一系列MFCC帧。我提取每个帧的对数似然度,并基于对数似然度得分内的百分位数对检测阈值进行阈值处理,当使用增量系数时,会得到奇怪的结果。
您可以忽略底部的4个数字,这些只是用于可视化我的阈值方案。
我想知道的是为什么与不使用增量相比,使用增量系数时对数似然行为表现得如此奇怪?
预先谢谢您,如果您需要澄清,请询问。
最佳答案
查看信号的幅度。与非三角洲相比,三角洲Coeffs示例低得可疑。也许只是噪音?
尝试在完全相同的记录上运行带有和不带有增量的系统。调试起来会更容易。
您还可以使用Delta附加MFCC的类似于频谱图的可视化效果。
关于audio - 为什么使用MFCC和Delta系数时对数似然法很奇怪,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/46940828/