扫除语言障碍Meta发布AI模型,支持

来源：语言识别时间：2024/1/12

文丨Congerry、Blink推倒人类世界的巴别塔！Meta发布了一个名为SeamlessM4T的人工智能（AI）模型，可以翻译和转录近百种语言。同时，SeamlessM4T将与新的翻译数据集SeamlessAlign一同开源，它代表了人工智能驱动的“语音到语音”和“语音到文本”领域的“重大突破”。对于语音转语音和文本转语音的操作，它可以识别种输入语言，并将其转换为5种输出语言。是不是，以后就不可以不用学外语了？这个AI模型可以支持语音翻译转语音，比如英语语音直接转俄语语音：还可以支持语音翻译直接转文字：当然还有最简单文本之间的互译：训练SeamlessM4T，打造SeamlessAlign数据集SeamlessM4T不是一蹴而就的。SeamlessM4T是Meta公司的"NoLanguageLeftBehind"（文本到文本机器翻译模型）和"UniversalSpeechTranslator"（支持闽南语的少数直接语音到语音翻译系统之一）的精神继承者。同时，它还建立在MassivelyMultilingualSpeech（Meta提供的一种支持超过1种语言的语音识别、语言识别和语音合成技术的框架）之上。Meta解释了如何利用重新设计的Fairseq序列建模工具包，结合多任务UnitY模型架构，构建SeamlessM4T。其中，多任务UnitY模型由三个主要序列组件组成：

文本和语音编码器：负责识别近种语言的语音输入，并将其转换为内部表示。

文本解码器：负责将编码后的语音表示或文本表示转换为目标语言的文本输出。

文本到单元（T2U）模型：负责将文本输出解码为6种语言的离散声学单元。

多语言HiFi-GAN单元声码器：负责将离散单元转换为音频波形。

为了提高模型的质量和训练稳定性，Meta还对该模型中的各个组件都进行了预训练。例如，自监督语音编码器w2v-BERT2.0是w2v-BERT的改进版本，它是通过分析数百万小时的多语言语音来学习查找语音中的结构和含义训练而成的。当然，这只是工作的一部分。像SeamlessM4T这样的数据驱动模型通常得益于大量高质量的端到端数据，即语音到文本和语音到语音数据，仅依靠人工转录和翻译的语音扩展到处理种语言语音翻译的挑战性任务。Meta在其先驱性工作上进行了建设，使用联合嵌入空间中的相似度度量进行文本到文本挖掘，并在语音挖掘方面进行了初步工作，以创建额外的资源来训练SeamlessM4T模型。首先，研究人员为种语言构建了一个新的大规模多语言和模式文本嵌入空间，命名为SONAR（Sentence-levelmOdality-andlaNguage-AgnosticRepresentations），它在多语言相似性搜索方面大大优于LASER或LaBSE等现有方法。然后，研究人员采用教师-学生模型（ateacher-studentapproach）将SONAR扩展到语音模态，目前已覆盖6种语言。注：ateacher-studentapproach是一种机器学习方法，它可以利用一个已经训练好的模型（teacher）来指导另一个模型（student）的学习过程。这种方法的目的是让student模型能够学习到teacher模型的知识和技能，从而提高student模型的性能和效率。这项工作是在公开的网络数据（数百亿句子）和语音（万小时）资源库中进行的，研究人员总共自动对齐了超过44,小时的语音和文本和约29,小时的语音对语音对齐。这个语料库被称为SeamlessAlign，它“教会”SeamlessM4T如何将语音转录为文本、翻译文本、从文本生成语音，甚至将一种语言中的单词翻译成另一种语言中的单词。SeamlessAlign也是迄今为止最大的开放式多模态翻译数据集。此外，BLASER2.0测试结果显示SeamlessM4T在语音转文本任务中针对背景噪声和说话人变化的表现更好（平均分别提高了7%和48%），且性能也优于之前最先进的竞争对手。Meta首席人工智能科学家YannLeCun也转发了与SeamlessAlign相关的信息。不过评论区的网友对此似乎并不“买账”。也有网友提出了自己的疑问和建议。还有网友认为，SeamlessM4T会让我们在5年时间内拥有一台通用翻译器。与此同时，Meta也表示，下一步的任务是探索SeamlessM4T如何作为新通信能力的基础，让我们更接近一个人人都能被理解的世界。（终于消除语言隔阂了吗）如果您有什么想说的，欢迎屏幕前你们在评论区留言讨论！我们将为点赞、评论、

转载请注明：http://www.0431gb208.com/sjszlfa/6806.html

上一篇文章：搜狗发布个性化语音识别,能知人善察你

下一篇文章：智能语音榜单TOP20科大讯飞百度等居