我有一个英语和法语视频游戏字幕的数据集,以及仅英语字幕的音频文件。英文字幕中指定了与他们各自的音频文件匹配的静音。例如,
[Silence 3] Some narrated text goes here. [Silence 2] Some more text goes here.
([静音3]中的3表示静音持续时间)。
我的任务是提供一个程序,将沉默添加到法语字幕中,以便输出:
[Silence 3] Certains textes narratifs vont ici. [Silence 2] Un peu plus de texte va ici.
我已经有了法语字幕的答案,可以用来验证算法的有效性。我当时正在考虑使用已经给出的答案来进行机器学习,以教授我的算法,但是我不确定哪种算法是最好的,或者在这种情况下这是否可行。我也发现音频文件没有用。解决此问题的最佳方法是什么?
编辑:并非所有句子的行为都像我之前给出的示例一样,有时沉默在句子中间。
最佳答案
如果我是你,我会忘记机器学习方法,而只是将文本分成句子。
sentence 1
sentence 2
SILENCE
sentence 3
SILENCE
捕获相应的平移,然后在适当的位置(位置2和3之后)插入无声。