我正在尝试使用Google的Cloud Speech API。这里有文档和代码示例:
https://cloud.google.com/speech/docs/basics
https://cloud.google.com/speech/docs/rest-tutorial
如果将示例代码指向包含的文件audio.raw,但没有简短的.wav文件,则可以使示例代码正常运行。
我不知道音频样本文件的格式是什么:
$ file audio.raw
audio.raw: data
使用我的.wav文件(可能有10秒钟的音频),我得到的结果是空的。
我知道这个答案。
google cloud speech api returning empty result
我的问题曾被问过,但没有答案。
What types of audio are supported by Cloud Speech API?
我无法想象我必须正确获取音频文件的属性才能使其正常工作。我假设一个常见的用例是有人记录 session ,不知道记录的参数,只想要一个文本文件。
最佳答案
编辑2020年5月:似乎情况有所改善,此答案不再正确:see new docs了解有关受支持格式(包括WAV)的详细信息。
截至2016年,似乎尚不支持WAV
e格式。这些格式已记录为受支持,但是:
speech.asyncrecognize可能使用的唯一编码。
StreamingRecognize,因为它使用无损压缩;所以
有损编解码器不会影响识别精度。仅支持16位样本。并非所有STREAMINFO中的字段都受支持
赫兹。
https://cloud.google.com/speech/reference/rest/v1beta1/RecognitionConfig#AudioEncoding
关于audio - Google Cloud Speech API可以识别哪些音频文件类型?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/40060458/