谷歌推同声传译系统Translato

来源：语言识别时间：2024/12/26

谷歌AI官方博客最新博文中向我们介绍了一项实验性质的新系统--Translatotron，它能够直接将语音翻译成为语音，中间不再需要任何文本。在博文中写道：“Translatotron是首个能够直接将一种语言的语音翻译成为另一种语言语音的端到端模型。Translatotron将源光谱图作为输入并生成目标语言中的翻译内容的光谱图。它还使用了另外两个经过单独训练的组件，神经声码器将输出频谱图转换为时域波形。该系统避免将任务划分为单独的阶段，提供了比级联系统更多的优势，更快的推理速度，自然地避免了识别和翻译之间的复合错误，使得在翻译后保留原始发言者的声音，并且更好地处理不需要翻译的单词。谷歌表示当前的翻译系统分为三个步骤：自动语音识别，将语音转换为文本；机器翻译，将文本转换为另一种语言；最后是文本转语音（TTS）合成，也就是将翻译好的文本生成语音。在这三个步骤衍生出了GoogleTranslate等服务，不过这家科技巨头希望通过一个模型就实现语音的翻译，而不再需要借助文本这个中间步骤。GoogleAI软件工程师YeJia和RonWeiss表示：“该系统名为Translatotron，这个系统避免了将任务分成不同的阶段。”谷歌表示这意味着更快的翻译速度和更少的转译错误。该系统使用频谱图作为输入并生成频谱图，同样依赖于神经声码器和扬声器编码器，这意味着系统在翻译后保留说话者的声音特征。据我们所知，Translatotron是第一个能够将语言从一种语言直接翻译成另一种语言的语音的端到端模型。它还能够在翻译的语音中保留说话者的声音。谷歌希望这项工作可以作为未来端到端语音转语音翻译系统研究的起点。

转载请注明：http://www.0431gb208.com/sjslczl/8185.html

上一篇文章：超强语音识别百度输入法值得信赖

下一篇文章：跨越语言的障碍GooglePixelBu