看来Microsoft提供了很多语音识别产品,我想知道它们之间的区别。


Microsoft Speech API或SAPI。但是Microsoft Cognitive Service Speech API具有相同的名称。
现在,Azure上的Microsoft认知服务提供了语音服务API和Bing语音API。我假设对于语音转文本,两个API都是相同的。
然后是System.Speech.Recognition(或桌面SAPI),Microsoft.Speech.Recognition(或服务器SAPI)和Windows.Media.Speech.RecognitionHerehere对这三个之间的区别有一些解释。但是我的猜测是它们是基于HMM的旧语音识别模型,又不是神经网络模型,并且这三个模型都可以在没有Internet连接的情况下离线使用,对吗?
对于Azure语音服务和bing语音API,它们是更高级的语音模型,对吗?但是我认为无法在本地计算机上脱机使用它们,因为它们都需要订阅验证。 (甚至似乎Bing API都有C# desktop library ..)


本质上,我希望有一个脱机模型,该模型对对话数据进行语音到文本的转录(每个音频记录需要5-10分钟),该模型可以识别多扬声器并输出时间戳(或时间编码的输出)。我现在对所有选择都有些困惑。如果有人可以向我解释,我将不胜感激,非常感谢!

最佳答案

一个困难的问题-以及为什么如此困难的部分原因:我们(微软)似乎提出了一个关于“语音”和“语音api”的不连贯的故事。尽管我在Microsoft工作,但以下是我对此的看法。我试图对我的团队正在计划的内容(认知服务演讲-客户端SDK)提供一些见识,但是我无法预测不久将来的所有方面。

微软很早就意识到语音是一种重要的媒介,因此,微软在其产品中启用语音功能有着悠久的历史。确实有不错的语音解决方案(具有本地认可),您列出了其中的一些。

我们正在努力将其统一起来,并为您提供一个在Microsoft找到最先进的语音解决方案的地方。这是“ Microsoft语音服务”(https://docs.microsoft.com/de-de/azure/cognitive-services/speech-service/)-当前处于预览状态。

在服务方面,它将把我们的主要语音技术结合在一起,例如语音到文本,文本到语音,意图,翻译(以及将来的服务)。语音和语言模型不断改进和更新。我们正在为此服务开发客户端SDK。随着时间的推移(今年晚些时候),该SDK将在所有主要操作系统(Windows,Linux,Android,iOS)上都可用,并支持主要编程语言。我们将继续增强/改进SDK的平台和语言支持。

在线服务和客户端SDK的结合将在今年晚些时候退出预览状态。

我们了解拥有本地识别功能的愿望。它不会在我们的第一个SDK版本中“开箱即用”(也不是当前预览的一部分)。 SDK的目标之一是平台和语言之间的奇偶校验(功能和API)。这需要很多工作。离线目前不属于此范围,在功能或时间轴上我都无法做出任何预测...

因此,从我的角度来看,新的语音服务和SDK是前进的方向。目标是在所有平台上提供统一的API,以便轻松访问所有Microsoft Speech Services。它需要订阅密钥,需要您“已连接”。我们正努力在今年晚些时候使(服务器和客户端)退出预览状态。

希望这可以帮助 ...

沃尔夫冈

关于speech-recognition - Microsoft Speech产品/平台之间的差异,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/50822466/

10-10 18:30
查看更多