我最近致力于使用 CMU 的 sphinx4 进行转录并最终强制对齐,即将音频与其转录本对齐。

我找到了一个叫做 AutoCap 的项目,它基本上做了我想要开发的。所以,我安装了它,但它不起作用。我尝试调整它,但我得到的只是不正确的时间戳。

所以,我想到了使用 sphinx4 并自己试一试。我使用 Sphinx 的 Transcriber.jar 文件成功转录了一个 wav 文件。
但我无法让它用于非数字数据的音频。 readme 页面说明
'想要转录非数字数据的人应该修改 config.xml 文件以使用正确的语法、语言模型和语言学家来这样做'。

那么,任何人都可以在以下任一方面为我提供一些帮助:

  • AutoCap
  • 使用 Sphinx4 转录非数字数据
  • 强制对齐

  • 谢谢。

    最佳答案

    有一个专门用于语音到文本对齐的特定项目。这不是一项微不足道的任务。开发在一个单独的 sphinx4 分支中进行。你可以在这里找到一些细节

    http://cmusphinx.sourceforge.net/?s=long+audio+alignment

    如果您对此项目有任何疑问,欢迎在 sphinx4 论坛上提问

    http://sourceforge.net/projects/cmusphinx/forums/forum/382337

    关于speech-recognition - 使用 CMU 的 sphinx4 转录非数字数据,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/7025497/

    10-11 10:57