回想我们之前说的语音识别流程:
49.端到端学习的利与弊 翻译自 吴恩达新书-Machine Learning Yearning-LMLPHP
流程中很多内容都是"手工工程":

  • MFCCs 是一系列手工设计的音频特征。这个特征提取过程会丢弃一些无用的信息,并整理出合理的音频摘要信息。
  • 音素是语音学家发明的。它是音频的一种不完美表示方法,用音素来表示音频会限制语音识别系统的性能。

然而,手动工程组件也有它的优势:

  • MFCC特征对那些不影响语音内容的因素,比如音高,具有很好的鲁棒性,这可以有效的简化机器学习算法要解决的问题。
  • 音素也是音频的一种合力表示。可以让算法了解基本的语音单元,然后帮助改进算法。

使用更多的手工工程组件,可以减少学习算法所需要的数据量。从手工工程MFCCs和因素获得的知识,而可以补充算法中数据中获得的知识。当我们没有很多数据时,这些知识就非常有用了。

现在,在考虑下端到端系统:
49.端到端学习的利与弊 翻译自 吴恩达新书-Machine Learning Yearning-LMLPHP

这个系统缺少手工工程相关的知识,因此当训练数据集很小时,他可能表现出的性能差于手工工程流程。

然而,当数据量比较大时,学习算法就不会受到MFCC或基于音素表示方法的限制了,如果学习算法是一个足够大的神经网络,而且有足够多的数据参与训练,它的潜力是非常大的,或许能达到最优的错误率。

端到端学习系统可以在两端(输入端、输出端)有大量已标记数据的情况下,表现的非常好。在这个例子中,我们需要准备大量的音频和对应的输出文本。当数据不可用时,端到端学习方法就有很大的风险了。

当你用机器学习算法解决问题时,如果训练样本集非常小,算法的大部分知识需要来自于人类的观察,比如手工工程设计的组件。

当你不使用端到端系统时,你需要考虑算法流程分成哪几步,这几步如何组装在一起,我们将会提供一些关于算法流程的设计建议。

10-05 09:33