我要记录一个狗吠声,保存文件并与包含不同类型的吠声(警告叫声,哭叫叫声等)的几个文件进行比较。
我该如何进行比较才能获得匹配?这种类型的应用程序应遵循什么流程?
感谢您的小费。
最佳答案
没有简单的答案可以解决您的问题。但是,对于初学者来说,您可能会研究音频指纹识别的工作方式。本文是shazam创作者撰写的一个很好的开始:
http://www.ee.columbia.edu/~dpwe/papers/Wang03-shazam.pdf
我不确定这种方法对狗吠的效果如何,但是其中有些概念可能被证明是有用的。
要研究的另一件事是FFT的工作方式。这是我编写的用于音高跟踪的代码的教程,这是使用FFT的一种方法。您将更多地关注音调和音高如何与给定狗的共振峰结构相互作用。因此,您要导出的参数可能包括基本音调(仅此一项就足以将呜呜声与其他种类的树皮区分开来)以及基本音调与高次谐波的比率,这将有助于确定树皮的攻击性(I我在这里猜测):
http://blog.bjornroche.com/2012/07/frequency-detection-using-fft-aka-pitch.html
最后,您可能需要对基本的语音识别和语音处理进行一些研究,因为会出现一些重叠。维基百科可能足以使您入门。
编辑:哦,同样,一旦您确定了一些要用于比较的参数,您将需要一种将多个参数与具有多个参数的声音数据库进行比较的方法。我认为shazam文章中的技术无效。您可以尝试的一件事是Logistic Regression。还有其他选择,但这可能是最简单的。