谷歌表示当前的翻译系统分为三个步骤:自动语音识别,将语音转换为文本;机器翻译,将文本转换为另一种语言;最后是文本转语音(TTS)合成,也就是将翻译好的文本生成语音。在这三个步骤衍生出了Google Translate等服务,不过这家科技巨头希望通过一个模型就实现语音的翻译,而不再需要借助文本这个中间步骤。
Google AI软件工程师Ye Jia和Ron Weiss表示:“该系统名为Translatotron,这个系统避免了将任务分成不同的阶段。”谷歌表示这意味着更快的翻译速度和更少的转译错误。该系统使用频谱图作为输入并生成频谱图,同样依赖于神经声码器和扬声器编码器,这意味着系统在翻译后保留说话者的声音特征。
更多声音样本访问这里.
本文素材来自互联网