我正在尝试创建一个轻量级的diphone语音合成器。一切似乎都非常简单,因为我的母语具有非常简单的发音和文本处理规则。我偶然发现的唯一问题是音调控制。
据我了解,为了控制语音的音调,大多数语音合成器都使用LPC(线性预测编码),该技术实质上将音调信息与录制的语音样本分离开来,然后在合成过程中,我可以提供自己的音调作为需要。
问题是我不是DSP专家。我使用了Ooura FFT库提取AFR信息,我对使用Hann和Hamming窗口(自己实现了C++代码)有所了解,但是大多数情况下,我将DSP算法视为黑盒。
我希望找到一些开源库,只是带有使用示例的纯LPC代码,但我什么也找不到。大多数可用的代码(例如Festival引擎)都紧密集成到合成器中,要分离并学习如何使用它将是一项艰巨的任务。
是否有任何带有“黑匣子”式LPC算法和用法示例的C/C++/C#/Java开源DSP库,所以我可以向其抛出PCM样本数据并获得LPC编码的输出,然后抛出编码数据并合成解码语音数据?
最佳答案
它并不是您要找的东西,但是也许您可以从这个非常复杂的工具箱中获得一些想法:Praat
关于signal-processing - 具有LPC编码器/解码器的DSP库,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/12019712/