我有HTK从.wav文件生成的MFCC(梅尔频率倒谱系数)文件。我需要从MFCC中提取一个时间跨度。当MFCC文件代表90分钟长的音频时,我想例如第三分钟的音频MFCC。

HTK的书说MFCC文件由标题和连续的样本序列组成。但是,以字节为单位确定样本的确切大小似乎并不容易。

可能有文件解析器吗? (当然,HTK中有,但是我没有设法弄清楚如何使用二进制文件来完成此任务。)

还是有一种简单的方法来确定样本和 header 的大小,以便能够将文件分割开?

最佳答案

弄清楚了。 HTK为此提供了一个工具。 HCopy可以将MFCC转换为MFCC,并接受开始和结束的参数。

HCopy -C config0 -s 10e7 -e 11e7 source.mfcc target.mfcc

从源代码中削减00:10 .. 00:11

config0应该包含与用于从wav创建原始mfcc的配置相同的配置,只是将sourcekind设置为wav。

关于audio - 处理MFCC文件,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/10103977/

10-12 23:17