使用IBM Watson,他们可以选择说话者识别(人1,人2)等。
这仅适用于窄带模型。拥有但不会牺牲准确的成绩单会很酷。选择窄带模型会降低精度吗?我正在录制电影对话框。
最佳答案
如果您想识别说话者,那么窄带是您当前的唯一选择。
documentation says:
扬声器标签功能目前是beta功能,
适用于美国英语,西班牙语和日语窄带型号
只要。
在我看来,这可能会在将来推广到宽带型号。如果发生这种情况,那么宽带模型将更适合于电影对话。
我不希望Narrowband的准确性会大大降低。主要的缺点是需要更多的工作(通过Watson服务)才能产生相同质量的结果。
您始终可以尝试双向录制剪辑(不使用Speaker_labels),并比较结果以自己查看准确性是否有所不同。