我为wav文件运行以下代码,并得到4个变量:sound.files,selec,开始和结束输出。 output。有谁知道是否有可能为每次对话找说话人,以便我们知道每个星星和结尾持续时间是说话人A说话还是说话人B说话。

 autodetec(flist = sub, threshold = 0.5, env = "abs", ssmooth = 500, power = 1, redo = TRUE,
            bp=c(0,9), xl = 2, picsize = 2, res = 200, flim= c(0,10), osci = TRUE,
            wl = 300, ls = FALSE, sxrow = 2, rows = 4, mindur=0.5, maxdur=8, set = TRUE)

最佳答案

该问题基于speaker diarisation的主题。如果每个扬声器都已经有同类片段(自动检测功能的输出),则可以计算音频描述符(例如常用的MFCC)来对每个片段进行分类。像Kmeans这样的简单分类器就可以完成这项工作。

09-07 22:28