我开始使用Google的Audioset。尽管数据集很广泛,但我发现有关音频特征提取的信息非常模糊。该网站提到



paper中,作者讨论了在960 ms块上使用梅尔频谱图来获得96x64表示形式。对于我来说,目前还不清楚它们如何获得Audioset中使用的1x128格式表示。有谁知道更多吗?

最佳答案

他们使用96*64数据作为修改后的VGG网络的输入。VGG的最后一层是FC-128,因此其输出将是1*128,这就是原因。
VGG的体系结构可以在这里找到:https://github.com/tensorflow/models/blob/master/research/audioset/vggish_slim.py

07-24 09:52