voice_kal_diphonevoice_ral_diphone在歌唱模式下可以正常工作(对于指定的音符,人声输出和音高正确)。
voice_cmu_us_ahw_cg和其他CMU声音无法正常工作-有声音输出,但是音高没有根据指定的音符进行更改。

使用更高质量的CMU语音能否获得正确的输出?

工作(受音高影响)输出的命令行为:

text2wave -mode singing -eval "(voice_kal_diphone)" -o song.wav song.xml

非工作(不影响音高)输出的命令行为:
text2wave -mode singing -eval "(voice_cmu_us_ahw_cg)" -o song.wav song.xml

这是song.xml:
<?xml version="1.0"?>
<!DOCTYPE SINGING PUBLIC "-//SINGING//DTD SINGING mark up//EN" "Singing.v0_1.dtd" []>
<SINGING BPM="60">
 <PITCH NOTE="A4,C4,C4"><DURATION BEATS="0.3,0.3,0.3">nationwide</DURATION></PITCH>
 <PITCH NOTE="C4"><DURATION BEATS="0.3">is</DURATION></PITCH>
 <PITCH NOTE="D4"><DURATION BEATS="0.3">on</DURATION></PITCH>
 <PITCH NOTE="F4"><DURATION BEATS="0.3">your</DURATION></PITCH>
 <PITCH NOTE="F4"><DURATION BEATS="0.3">side</DURATION></PITCH>
</SINGING>

您可能还需要将此补丁添加到singing-mode.scm:
@@ -339,7 +339,9 @@
 (defvar singing-max-short-vowel-length 0.11)

 (define (singing_do_initial utt token)
-  (if (equal? (item.name token) "")
+  (if (and
+        (not (equal? nil token))
+        (equal? (item.name token) ""))
       (let ((restlen (car (item.feat token 'rest))))
         (if singing-debug
             (format t "restlen %l\n" restlen))

要设置我的环境,我使用了festvox fest_build script。您也可以download voice_cmu_us_ahw_cg separately

最佳答案

看来问题出在手机一代。
voice_kal_diphone使用UniSyn综合模型,而voice_cmu_us_ahw_cg使用ClusterGen模型。最后一个具有自己的语调和持续时间模型(基于状态),而不是电话的语调/持续时间:可能您注意到生成的“歌曲”中的持续时间也没有改变。
singing-mode.scm尝试提取每个音节并修改其频率。在ClusterGen模型的情况下,由于不同的建模,波发生器仅忽略Target中设置的音节频率和持续时间。

结果,我们具有更好的语音质量(基于统计模型),但不能直接更改频率。

生成管道的很好描述可以在here中找到。

关于text-to-speech - 节2.4 : why do some voices not work with singing mode?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/34038634/

10-11 02:36