speech-recognition - Microsoft Speech产品/平台之间的差异

看来Microsoft提供了很多语音识别产品，我想知道它们之间的区别。

有Microsoft Speech API或SAPI。但是Microsoft Cognitive Service Speech API具有相同的名称。
现在，Azure上的Microsoft认知服务提供了语音服务API和Bing语音API。我假设对于语音转文本，两个API都是相同的。
然后是System.Speech.Recognition（或桌面SAPI），Microsoft.Speech.Recognition（或服务器SAPI）和Windows.Media.Speech.Recognition。 Here和here对这三个之间的区别有一些解释。但是我的猜测是它们是基于HMM的旧语音识别模型，又不是神经网络模型，并且这三个模型都可以在没有Internet连接的情况下离线使用，对吗？
对于Azure语音服务和bing语音API，它们是更高级的语音模型，对吗？但是我认为无法在本地计算机上脱机使用它们，因为它们都需要订阅验证。（甚至似乎Bing API都有C# desktop library ..）

本质上，我希望有一个脱机模型，该模型对对话数据进行语音到文本的转录（每个音频记录需要5-10分钟），该模型可以识别多扬声器并输出时间戳（或时间编码的输出）。我现在对所有选择都有些困惑。如果有人可以向我解释，我将不胜感激，非常感谢！

最佳答案

一个困难的问题-以及为什么如此困难的部分原因：我们（微软）似乎提出了一个关于“语音”和“语音api”的不连贯的故事。尽管我在Microsoft工作，但以下是我对此的看法。我试图对我的团队正在计划的内容（认知服务演讲-客户端SDK）提供一些见识，但是我无法预测不久将来的所有方面。

微软很早就意识到语音是一种重要的媒介，因此，微软在其产品中启用语音功能有着悠久的历史。确实有不错的语音解决方案（具有本地认可），您列出了其中的一些。

我们正在努力将其统一起来，并为您提供一个在Microsoft找到最先进的语音解决方案的地方。这是“ Microsoft语音服务”（https://docs.microsoft.com/de-de/azure/cognitive-services/speech-service/）-当前处于预览状态。

在服务方面，它将把我们的主要语音技术结合在一起，例如语音到文本，文本到语音，意图，翻译（以及将来的服务）。语音和语言模型不断改进和更新。我们正在为此服务开发客户端SDK。随着时间的推移（今年晚些时候），该SDK将在所有主要操作系统（Windows，Linux，Android，iOS）上都可用，并支持主要编程语言。我们将继续增强/改进SDK的平台和语言支持。

在线服务和客户端SDK的结合将在今年晚些时候退出预览状态。

我们了解拥有本地识别功能的愿望。它不会在我们的第一个SDK版本中“开箱即用”（也不是当前预览的一部分）。 SDK的目标之一是平台和语言之间的奇偶校验（功能和API）。这需要很多工作。离线目前不属于此范围，在功能或时间轴上我都无法做出任何预测...

因此，从我的角度来看，新的语音服务和SDK是前进的方向。目标是在所有平台上提供统一的API，以便轻松访问所有Microsoft Speech Services。它需要订阅密钥，需要您“已连接”。我们正努力在今年晚些时候使（服务器和客户端）退出预览状态。

希望这可以帮助 ...

沃尔夫冈

关于speech-recognition - Microsoft Speech产品/平台之间的差异，我们在Stack Overflow上找到一个类似的问题：https://stackoverflow.com/questions/50822466/