我正在开发一款基于语音AI的iOS应用;即是指从麦克风获取语音输入,将其转换为文本,发送给AI代理,然后通过扬声器输出返回的文本。尽管使用按钮开始和停止录制语音,但我已经完成了所有工作(用于语音识别的SpeechKit,用于AI的API.AI,用于输出的Amazon Polly)。
我需要做的是始终保持麦克风打开,并在用户开始和结束通话时自动开始和停止用户语音的录制。这款应用是为非正统环境开发的,用户将无法访问屏幕(但他们将拥有高端a弹枪麦克风来记录其文字)。
我的研究表明,这一难题被称为“语音事件检测”,似乎是整个基于语音的AI系统中最困难的步骤之一。
我希望有人可以自己提供一些简单的(Swift)代码来实现此目标,也可以指出我可以在该项目中实现的一些不错的库/SDK的方向。
最佳答案
为了实现良好的VAD算法,可以使用py-webrtcvad。
它是C代码的Python界面,您可以从项目中导入C文件,然后快速使用它们。
关于ios - 通过iOS上的麦克风输入进行语音事件检测,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/45528922/