我正在尝试使用Google的Cloud Speech API。这里有文档和代码示例:

https://cloud.google.com/speech/docs/basics
https://cloud.google.com/speech/docs/rest-tutorial

如果将示例代码指向包含的文件audio.raw,但没有简短的.wav文件,则可以使示例代码正常运行。

我不知道音频样本文件的格式是什么:
$ file audio.raw
audio.raw: data

使用我的.wav文件(可能有10秒钟的音频),我得到的结果是空的。

我知道这个答案。

google cloud speech api returning empty result

我的问题曾被问过,但没有答案。

What types of audio are supported by Cloud Speech API?

我无法想象我必须正确获取音频文件的属性才能使其正常工作。我假设一个常见的用例是有人记录 session ,不知道记录的参数,只想要一个文本文件。

最佳答案

编辑2020年5月:似乎情况有所改善,此答案不再正确:see new docs了解有关受支持格式(包括WAV)的详细信息。

截至2016年,似乎尚不支持WAV e格式。这些格式已记录为受支持,但是:

  • LINEAR16未压缩的16位带符号小字节序样本。这是
    speech.asyncrecognize可能使用的唯一编码。
  • FLAC这是对Speech.syncrecognize和
    StreamingRecognize,因为它使用无损压缩;所以
    有损编解码器不会影响识别精度。仅支持16位样本。并非所有STREAMINFO中的字段都受支持
  • MULAW 8位样本,使用G.711 PCMU/mu-law对14位音频样本进行扩展。
  • AMR自适应多速率窄带编解码器。 sampleRate必须为8000 Hz。
  • AMR_WB自适应多速率宽带编解码器。 sampleRate必须为16000
    赫兹。

  • https://cloud.google.com/speech/reference/rest/v1beta1/RecognitionConfig#AudioEncoding

    关于audio - Google Cloud Speech API可以识别哪些音频文件类型?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/40060458/

    10-13 02:06