我正在寻找一种匹配已知数据集的方法,比如说一个MP3或WAV文件列表,每个列表都是某人讲话的样本。在这一点上,我知道文件ABC是X说话的。

然后,我想再进行一次采样,并进行语音匹配,以根据给定的已知数据集显示此语音最有可能是谁。

另外,只要找到匹配项,我就不必在乎对方说了什么,也就是说,我不需要任何抄写或其他方式。

我知道CMU Sphinx不会进行语音识别,它主要用于语音到文本,但是我看到了其他系统,例如:LIUM Speaker Diarization(LIUM Speaker Diarization(http://cmusphinx.sourceforge.net/wiki/Speakerdiarization)或使用CMU作为此类工作基础的VoiceID项目(https://code.google.com/p/voiceid/)。

如果要使用CMU,如何进行语音匹配?

另外,如果CMU Sphinx不是最好的框架,是否有开源的替代方案?

最佳答案

对于博士学位论文而言,这是一个足够复杂的主题。到目前为止,还没有好的和可靠的系统。

您要完成的任务非常复杂。您应该如何处理它取决于您的情况。

  • 您的人数有限吗?多少?
  • 每个人有多少数据?

  • 如果您只有的人很少可以识别,则可以尝试一些简单的操作,例如获取这些人的formants并将其与样本进行比较。

    否则,您必须联系一些从事该主题研究的学者,或者由陪审团提出自己的解决方案。正如我所说,无论哪种方式,这都是一个难题。

    09-19 20:28