我开始使用Google的Audioset。尽管数据集很广泛,但我发现有关音频特征提取的信息非常模糊。该网站提到
在paper中,作者讨论了在960 ms块上使用梅尔频谱图来获得96x64表示形式。对于我来说,目前还不清楚它们如何获得Audioset中使用的1x128格式表示。有谁知道更多吗?
最佳答案
他们使用96*64
数据作为修改后的VGG
网络的输入。VGG
的最后一层是FC-128
,因此其输出将是1*128
,这就是原因。VGG
的体系结构可以在这里找到:https://github.com/tensorflow/models/blob/master/research/audioset/vggish_slim.py