我正在开发用于现场录音的语音情感识别系统。我正在使用OpenSMILE库进行特征提取。我收集了一组包含不同类型语音类型的音频文件,并从中提取了特征,并训练了基于SVM的情感识别器。但是,这在通过现场语音进行测试时完全失败。原因是实况语音中的信号以及特征分布(MFCC,LSP,音高,强度,F0)与文件中的信号完全不同。 OpenSMILE库使用portaudio访问来自麦克风的音频信号。

我尝试过无线播放文件(f_original)并通过麦克风录制它,然后让OpenSMILE保存它(f_distorted)。我发现在演奏时,f_original和f_distorted听起来与人耳并没有很大不同。但是,在audacity中可视化时,音频信号相差很大,并且从f_original和f_distorted中提取的特征也有很大差异。文件f_original的频率为16000Hz,在特征提取之前,我将其上采样到44100Hz。麦克风以44100Hz记录。

虽然我确实希望通过麦克风录音时会出现一些失真,但我看到的失真程度非常高。

还有其他人遇到过类似的问题吗?有关如何解决此问题的任何指示。

谢谢!

最佳答案

这将在很大程度上取决于录音的环境因素,包括房间,扬声器/麦克风组合的频率响应以及它们在录音室内的类型/位置。该软件可能可以帮助您清除此问题,但是获得清晰的记录将是影响软件性能分析能力的最重要因素。

假设您的录音电平设置正确,并且麦克风和扬声器的频率响应相对平坦,您仍将根据环境改变声音的频率曲线。

在播放时这种效果可能不会立即显现出来,但是声音的许多元素都会受到不利影响。 Composer 已使用此方法产生了很大的效果。

请参阅Alvin Lucier的“我坐在http://www.ubu.com/sound/lucier.html的房间里”,以获取此类构图的美丽示例。

您在该录音中听到的许多 transient 拖影效果会极大地影响语音配置文件,因此需要仔细考虑录音的设置。最好与音响工程师谈谈录音设置方面的技巧,因为这似乎是您似乎正在苦苦挣扎的部分。
例如您不会提及您正在使用的房间的声学特性或音频设置。

您还可以对要使用的房间/麦克风/扬声器设置进行冲激响应,然后将所记录的语音与冲激解卷积,这从理论上应将录制内容还原为原始信号的完美代表。这很棘手,但可以提供令人赞叹的效果。

关于audio - 文件和麦克风录制之间的音频信号差异,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/15692365/

10-12 23:49