假设您要使用类似于以下内容的CMU's phonetic data set输入:

ABERRATION  AE2 B ER0 EY1 SH AH0 N
ABERRATIONAL  AE2 B ER0 EY1 SH AH0 N AH0 L
ABERRATIONS  AE2 B ER0 EY1 SH AH0 N Z
ABERT  AE1 B ER0 T
ABET  AH0 B EH1 T
ABETTED  AH0 B EH1 T IH0 D
ABETTING  AH0 B EH1 T IH0 NG
ABEX  EY1 B EH0 K S
ABEYANCE  AH0 B EY1 AH0 N S

(单词在左边,右边是一系列音素key here)

您想将其用作机器学习系统的训练数据,该系统将使用新单词并猜测它们将如何用英语发音。

至少对我来说,这不是那么明显,因为没有固定大小的字母可以映射到音素。我觉得与马尔可夫链有关的事情可能是正确的方法。

你会怎么做?

最佳答案

这个问题称为音素到音素转换,这是Natural Language Processing的子问题。 Google brings up几篇论文。

关于machine-learning - 机器学习挑战: learn english pronunciation,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/673617/

10-12 21:55