我正在寻找API以将口语项目转换为iOS上的文本,但主要用于数字和字母(例如1、2、3、4和a,b,c,d)。
我尝试了许多人建议的OpenEars,但它似乎仅支持某些命令,例如“GO FORWARD BACKWARD LEFT RIGHT START STOP TURN”。可以用来识别通用词或口号吗?
我也尝试过iSpeech API,但是当我说一串数字(例如12345)时,它只能返回文本“一二三四五”,并且只能给出识别的结果,而不是猜测列表(例如Android上的Google语音识别API)。
如何使用这些API(或其他API)之一来识别口号或字母?
最佳答案
要了解如何创建自定义语言模型以及如何使用OpenEars动态创建语言模型(语言模型是您的自定义单词集),请在此处阅读OpenEars文档:
http://www.politepix.com/openears/yourapp
要了解如何在面向识别语音数字的OpenEars中使用声学模型,请在OpenEars论坛中阅读以下讨论:
http://www.politepix.com/forums/topic/way-to-see-phonemes-openears-heard
您还可以查看OpenEars示例应用程序中的代码,该代码受到了严重的注释,并显示了内联更改应用程序“词汇”的示例。如果您对实施OpenEars有更多疑问,建议您在OpenEars论坛上注册一个帐户(我是OpenEars开发人员)。