对于我的最后一个项目,我试图实时(通过录制声音片段)识别狗/树皮/鸟的声音。我正在使用MFCC作为音频功能。最初,我使用jAudio库从声音剪辑中总共提取了12个MFCC矢量。
现在,我正在尝试训练机器学习算法(目前我尚未确定算法,但很可能是SVM)。声音片段的大小约为3秒。我需要澄清有关此过程的一些信息。他们是,
还是基于整体片段的MFCC(每个声音片段12个)?
这些MFCC是剪辑的整体MFCCS,
-9.598802712290967 -21.644963856237265 -7.405551798816725 -11.638107212413201 -19.441831623156144 -2.780967392843105 -0.5792847321137902 -13.14237288849559 -4.920408873192934 -2.7111507999281925 -7.336670942457227 2.4687330348335212
克服这些问题,我们将不胜感激。我在Google上找不到很好的帮助。 :)
最佳答案
请注意,MFCC对噪声敏感,因此请首先检查样本的声音。例如,提供了更丰富的音频特征选择供提取Yaafe library,其中许多将在您的情况下更好用。具体是哪一个?这是我发现对鸟叫进行分类最有用的方法:
也许您会发现 checkout this project很有意思,尤其是我与Yaafe进行交互的那一部分。
过去,我完全按照您的计划使用SVM。今天,我将绝对使用梯度增强。
关于machine-learning - 如何使用MFCC系数向量训练机器学习算法?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/35253243/