在进行语音识别的过程中,系统的处理对象是有效语音信号。尤其在在多人说话的情况下,如果不对输入信号做分离处理而直接进行语音识别的话,识别效果会很差。这时,需要从输入信号中找到语音部分的起止点和终止点,从中抽取语音情感识别所需的信号特征。这样的语音信号“切割”过程被称为语音端点检测(Voice Activity Detection,VAD),是一种驱动性的语音信号处理技术。
简单来说,VAD就是将有效的语音信号和无用的语音信号或者噪音信号进行分离,以使后续的说话人识别、语义识别及语音情感分析等工作更加高效,是语音处理过程非常必要且关键的环节。
1.在存储或传输语音的场景下,从连续的语音流中分离出有效语音可以降低存储或传输的数据量;
2.只针对有效语音信号进行识别工作,在不降低语音信息量的前提下,可大大降低语音识别系统的运算量;
3.由于去除了非语音信号的中噪声的干扰,系统的识别准确率也得到了极大提高;VAD技术的兴起。
在VAD技术应用比较广就是智能电话机器人的开发,很多行业内部人士已经接触过电销机器人,并且我们在生活中也接到过许多机器人打来的电话。比如,一些来自企业招聘、教育培训、电话服务、等企业的销售电话。机器人代替人工作业已经屡见不鲜,但机器人代替人工打电话并且进行推销业务,这样的电话机器人好不好用,行业间一直有此疑问。
其次就是骚扰电话的层出不穷,好在今年3.15整治下,一些使用泛滥技术的企业都得到了应有的惩罚。同时为了整顿行业内部,也出了相关的规定,在诸多条件的限制下,语音交互市场也慢慢走上了正轨。
回到上面的话题,说道VAD模块的开发要从最早1959年开始,贝尔实验室率先将VAD技术应用于电话传输,到后来日本、英国、美国等各国专家相继提出基于频域、基于人工神经网络算法、基于倒谱距离等多种语音端点检测方法,语音技术便进入高速发展阶段。
目前,端点检测的方法主要有两大类,一是基于语音特征的检测方法,该方法的关键在于对信号提取其鲁棒性特征,以便能够很好地区分语音/非语音。近几年使用该方法的检测算法主要有:基于能量特征、基于周期特征及基于多特征融合等算法,此方法对多种低信噪比(信噪比越低,混在信号里的噪声越大)的情况有着较好的检测正确率。
第二种是决策规则的检测方法,包括基于统计模型和基于机器学习的检测方法,是近年来的研究热点。其中基于机器学习的端点检测方法是将语音的检测转换成一个二元分类的问题,然后训练其学习其语音和噪声的不同特性。
VAD技术的应用难点和要求
目前,许多VAD算法都需要用到一些假设来保证实现良好的检测性能,如:
· 在比较长的一段时间内,背景噪音是平稳的;
· 语音能量要高于噪音的能量,即信噪比高(混在信号里的噪声小);
· 语音谱比噪音普更加有序;
· 语音信号的周期性要比噪音的周期性好;
如果上述假设都可以满足,我们就可以使用较为简单的检测算法做出正确的检测。但在实际情况中 ,上述假设很难同时满足。因此,一个性能良好的VAD算法需要满足以下要求:
· 在较低信噪比下仍有精准的检测能力;
· 使用多个特征联合进行检测,特别是那些可以充分表征语音信号和噪音信号之间差异的特征;
· 在背景噪音有变化或未知噪音类型的情况下仍能较好的检测,即噪音适应性好;
· 对于与噪音特性相似的清音、破音和摩擦音等信号,能够将其正确检测为语音,尽可能的避免丢失。
以欧能智能的产品为例,通过语音情绪识别等情感计算技术为教学“赋能”,帮助企业和用户提供更个性化的指导。对语音信号处理技术VAD的逐步应用和深入研究,这些方面的研发将帮助欧能研发团队大幅缩短数据处理时间,提高语音识别系统准确率,快速驱动更高效的产品落地。
科技巨头都在打造自己的智能语音生态系统,在语音识别程序中,为了解决电话机器人好不好用的问题,减少了17%的运算时间,从而使得识别准确率相对提高了1%。智能语音技术是人工智能应用最成熟的技术之一,并拥有交互的自然性,因而具有巨大的市场空间。