我正在寻找有关动态时间规整(DTW)的一些建议。

我有一个Python脚本,并从各种长度的.WAV文件中提取了Mel频率倒谱系数(MFCC)特征向量。特征向量是长度可变的数组,其中包含12个MFCC的数组。

例如,一个.WAV文件可以由包含10组12个特征向量的数组表示,而另一个.WAV文件可以由一个包含20组12个特征向量的数组表示。

我打算使用DTW比较两个数组的数组,但不确定如何。我了解DTW的概念,并且如果数组中包含的特征向量是单个数字,则实现它不会有任何问题,我的困惑是由于它们是数组。

Tl; dr:如何使用DTW比较两个数组?

编辑:我读过this问题无济于事。

非常感谢,
亚当

最佳答案

有一个nice tutorial on DTW here

我已经在十几篇论文中做到了这一点,请参见zebra finch example here

需要注意的关键事项。您可能只想将一个特征向量与相应的特征向量进行比较。很少使用全部12个有用的东西。

10-07 20:40