我发现了一些使用深度学习进行音频分类的论文和幻灯片。

一些研究使用频谱图作为深度学习模型的输入。

我想知道确切和实际的实现。

我找到了this slide

第67章一更

speech-recognition - 深度学习的音频功能-LMLPHP



据我了解,第一层的节点号为24,输入的频谱图为24个不同时间段。

例如,如果音频事件为2.4秒,则第一个节点的频谱图为0〜0.1秒,第二个节点的频谱图为0.1〜0.2秒...

我误会了吗?

我的问题:如果发生3.0秒的音频事件,如何对其进行分类?

最佳答案

我设法使用卷积神经网络对时间序列数据进行分类。卷积神经网络与人工神经网络基本相同。唯一的区别是,必须首先对ANN的输入进行卷积以提取特定特征。卷积运算以一种直观的方式基本上突出了某些数据的特定特征。最好是通过手电筒穿过图像的不同部分来描绘。这样,我们可以突出显示图像的特定功能。

这是CNN的主要思想。它固有地设计为提取空间特征。卷积运算通常是堆叠的,这意味着您具有(行,列,维度),因此卷积的输出为3维。该过程的缺点是计算时间长。为了减少这种情况,我们需要进行池化或下采样,这从根本上减少了特征检测器的尺寸,同时又不丢失必要的特征/信息。例如,在合并之前,您有12个6,6矩阵作为特征检测器。合并后,您将获得12个卷积数据,大小为3,3。您可以在展平之前一遍又一遍地执行这两个步骤,这基本上会将所有这些挤压到(n,1)维数组中。之后,您可以执行正常的ANN步骤。

简而言之,可以使用CNN完成对时间序列数据进行分类的步骤。步骤如下:

1,卷积
2.池化
3.平整
4.完全连接(正常的ANN步骤)

您可以随意添加卷积和池化层,但要注意训练时间。我最喜欢的YouTuber Siraj Raval就是这个video。顺便说一句,我建议您使用Keras进行深度学习。传授最容易使用的深度学习库。希望能帮助到你。

10-06 12:57