我正在研究一个卷积神经网络,该网络需要一个audio spectrogram来使用GTZAN dataset来区分音乐和语音
如果单个样本较短,则总体上将提供更多样本。但是,如果样本太短,那么它们可能缺少重要特征吗?
识别一段音频是音乐还是语音需要多少数据?
音频样本理想情况下应该持续多长时间?
最佳答案
音频的长度取决于多种因素。
基本思想是获取足够的样本。
由于音频会不断变化,因此最好处理较短的数据。但是,非常小的帧将导致更少/没有要捕获的特征。
另一方面,非常大的样本将捕获太多特征,从而导致复杂性。
因此,在大多数情况下,尽管理想的音频长度是25秒,但这不是书面规则,您可以相应地对其进行操作,只需确保帧大小不是很小或很大。
更新数据集
检查this链接以获取30s的数据集
关于machine-learning - 音频样本应该用于音乐/语音识别多长时间?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/42558461/