我发现了一些使用深度学习进行音频分类的论文和幻灯片。
一些研究使用频谱图作为深度学习模型的输入。
我想知道确切和实际的实现。
我找到了this slide。
第67章一更
据我了解,第一层的节点号为24,输入的频谱图为24个不同时间段。
例如,如果音频事件为2.4秒,则第一个节点的频谱图为0〜0.1秒,第二个节点的频谱图为0.1〜0.2秒...
我误会了吗?
我的问题:如果发生3.0秒的音频事件,如何对其进行分类?
最佳答案
我设法使用卷积神经网络对时间序列数据进行分类。卷积神经网络与人工神经网络基本相同。唯一的区别是,必须首先对ANN的输入进行卷积以提取特定特征。卷积运算以一种直观的方式基本上突出了某些数据的特定特征。最好是通过手电筒穿过图像的不同部分来描绘。这样,我们可以突出显示图像的特定功能。
这是CNN的主要思想。它固有地设计为提取空间特征。卷积运算通常是堆叠的,这意味着您具有(行,列,维度),因此卷积的输出为3维。该过程的缺点是计算时间长。为了减少这种情况,我们需要进行池化或下采样,这从根本上减少了特征检测器的尺寸,同时又不丢失必要的特征/信息。例如,在合并之前,您有12个6,6矩阵作为特征检测器。合并后,您将获得12个卷积数据,大小为3,3。您可以在展平之前一遍又一遍地执行这两个步骤,这基本上会将所有这些挤压到(n,1)维数组中。之后,您可以执行正常的ANN步骤。
简而言之,可以使用CNN完成对时间序列数据进行分类的步骤。步骤如下:
1,卷积
2.池化
3.平整
4.完全连接(正常的ANN步骤)
您可以随意添加卷积和池化层,但要注意训练时间。我最喜欢的YouTuber Siraj Raval就是这个video。顺便说一句,我建议您使用Keras进行深度学习。传授最容易使用的深度学习库。希望能帮助到你。