使用IBM Watson,他们可以选择说话者识别(人1,人2)等。

这仅适用于窄带模型。拥有但不会牺牲准确的成绩单会很酷。选择窄带模型会降低精度吗?我正在录制电影对话框。

最佳答案

如果您想识别说话者,那么窄带是您当前的唯一选择。

documentation says


  扬声器标签功能目前是beta功能,
  适用于美国英语,西班牙语和日语窄带型号
  只要。


在我看来,这可能会在将来推广到宽带型号。如果发生这种情况,那么宽带模型将更适合于电影对话。

我不希望Narrowband的准确性会大大降低。主要的缺点是需要更多的工作(通过Watson服务)才能产生相同质量的结果。

您始终可以尝试双向录制剪辑(不使用Speaker_labels),并比较结果以自己查看准确性是否有所不同。

09-30 13:18