我正在使用python中的Librosa从GTZAN数据集中提取对数梅尔-频谱图。我的代码-
data, sampling_rate = librosa.load(os.path.join(dir, folder, file), )
mel = librosa.feature.melspectrogram(y=data, hop_length = 512//2, n_fft = 512, n_mels = 64)
mel = librosa.power_to_db(mel**2)
好吧,它运作完美。但是,每个梅尔谱图的大小是不同的。大多数对数梅尔谱图的大小为2586,其中一些具有2590至2620。
登录梅尔谱图时,我检查大小是否不同。当所有声音都在相同长度的情况下,记录日志时它们的大小如何不同...
任何建议,谢谢
最佳答案
音频文件的长度可能略有变化。这通常发生在数据集中。您可能应该将所有频谱图截短为最短的公共(public)长度(2586)。
mel = mel[:,0:2586]
关于python - 天秤座谱图对数形状,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/58742096/