文本和语音编码器:负责识别近种语言的语音输入,并将其转换为内部表示。
文本解码器:负责将编码后的语音表示或文本表示转换为目标语言的文本输出。
文本到单元(T2U)模型:负责将文本输出解码为6种语言的离散声学单元。
多语言HiFi-GAN单元声码器:负责将离散单元转换为音频波形。
为了提高模型的质量和训练稳定性,Meta还对该模型中的各个组件都进行了预训练。例如,自监督语音编码器w2v-BERT2.0是w2v-BERT的改进版本,它是通过分析数百万小时的多语言语音来学习查找语音中的结构和含义训练而成的。当然,这只是工作的一部分。像SeamlessM4T这样的数据驱动模型通常得益于大量高质量的端到端数据,即语音到文本和语音到语音数据,仅依靠人工转录和翻译的语音扩展到处理种语言语音翻译的挑战性任务。Meta在其先驱性工作上进行了建设,使用联合嵌入空间中的相似度度量进行文本到文本挖掘,并在语音挖掘方面进行了初步工作,以创建额外的资源来训练SeamlessM4T模型。首先,研究人员为种语言构建了一个新的大规模多语言和模式文本嵌入空间,命名为SONAR(Sentence-levelmOdality-andlaNguage-AgnosticRepresentations),它在多语言相似性搜索方面大大优于LASER或LaBSE等现有方法。然后,研究人员采用教师-学生模型(ateacher-studentapproach)将SONAR扩展到语音模态,目前已覆盖6种语言。注:ateacher-studentapproach是一种机器学习方法,它可以利用一个已经训练好的模型(teacher)来指导另一个模型(student)的学习过程。这种方法的目的是让student模型能够学习到teacher模型的知识和技能,从而提高student模型的性能和效率。这项工作是在公开的网络数据(数百亿句子)和语音(万小时)资源库中进行的,研究人员总共自动对齐了超过44,小时的语音和文本和约29,小时的语音对语音对齐。这个语料库被称为SeamlessAlign,它“教会”SeamlessM4T如何将语音转录为文本、翻译文本、从文本生成语音,甚至将一种语言中的单词翻译成另一种语言中的单词。SeamlessAlign也是迄今为止最大的开放式多模态翻译数据集。此外,BLASER2.0测试结果显示SeamlessM4T在语音转文本任务中针对背景噪声和说话人变化的表现更好(平均分别提高了7%和48%),且性能也优于之前最先进的竞争对手。Meta首席人工智能科学家YannLeCun也转发了与SeamlessAlign相关的信息。不过评论区的网友对此似乎并不“买账”。也有网友提出了自己的疑问和建议。还有网友认为,SeamlessM4T会让我们在5年时间内拥有一台通用翻译器。与此同时,Meta也表示,下一步的任务是探索SeamlessM4T如何作为新通信能力的基础,让我们更接近一个人人都能被理解的世界。(终于消除语言隔阂了吗)如果您有什么想说的,欢迎屏幕前你们在评论区留言讨论!我们将为点赞、评论、转载请注明:http://www.0431gb208.com/sjslczl/6984.html