我正在使用python中的Librosa从GTZAN数据集中提取对数梅尔-频谱图。我的代码-

data, sampling_rate = librosa.load(os.path.join(dir, folder, file), )
mel = librosa.feature.melspectrogram(y=data, hop_length = 512//2, n_fft = 512, n_mels = 64)
mel = librosa.power_to_db(mel**2)

好吧,它运作完美。但是,每个梅尔谱图的大小是不同的。大多数对数梅尔谱图的大小为2586,其中一些具有2590至2620。

登录梅尔谱图时,我检查大小是否不同。当所有声音都在相同长度的情况下,记录日志时它们的大小如何不同...

任何建议,谢谢

最佳答案

音频文件的长度可能略有变化。这通常发生在数据集中。您可能应该将所有频谱图截短为最短的公共(public)长度(2586)。

mel = mel[:,0:2586]

关于python - 天秤座谱图对数形状,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/58742096/

10-13 06:43