我有兴趣编写一个PHP脚本(我欢迎使用与语言无关的建议),该脚本会将英语(语音上)写成的句子或单词音译成另一种语言的脚本。由于我正在看用英语书写的英语(即按耳朵):我必须处理同一个单词的变体拼写。
假定不存在用于罗马化的标准(例如,中文为简体韦德等)
有人对我可以从哪里开始有任何建议吗?
编辑:我这样做纯粹是出于教育目的,最初给人的印象是,为了弄清楚变体拼写之间的联系(可以在IM消息的语料库中找到,Facebook帖子以罗马化形式写成)语言),则需要某种机器学习工具。但是,我想知道自己是否走在正确的轨道上,并且希望获得一些帮助,以弄清楚下一步应该做什么以使它正常工作(例如:我应该研究哪种机器学习工具?) 。
最佳答案
我至少知道日语,您有一定数量的字母组合。
因此,您可以执行类似创建匹配数组的操作
array(
'oo' => 'おう',
'oh' => 'おう',
'ou' => 'おう'
)
当然,继续操作,并确保您不匹配“su”(应为“tsu”)。
当然,这仅仅是一个起点。
机器学习可能是最实用的中文...但是,这是平假名的一个粗略的开始:https://gist.github.com/1154969