当将分段语音音频添加到DNN模型时,我了解到从最后一个隐藏层提取的特征的平均值为“d vector ”。
在那种情况下,我想知道即使我没有学习就把讲话者的声音放在一边也能提取讲话者的d vector 。
通过使用此功能,当放入由多个人说出的语音文件的分段值(使用mel-filterbank或MFCC)时,是否可以通过如上所述对提取的d vector 值进行聚类来区分说话者?
最佳答案
要回答您的问题:
d-vector
。通常,您查看ANN的输出(最终层),但同样可以从倒数第二个(d-vector
)层检索值。 d-vector
来区分说话者,因为它以一种高级方式嵌入音频信号,从而为不同的人提供独特的功能。参见例如这个paper。