近期,Meta旗下的AI科研团队公布了一种自监督学习的语音处理方案XLS-$,其特点是可识别种语言,实现语音识别、语言识别、语音翻译等功能。据悉,Meta希望将语音识别技术与未来的虚拟技术结合,其表示:交谈是人与人互动的自然方式,而语音技术可以让我们与设备和虚拟系统互动,让虚拟体验与物理世界更加融为一体。
据青亭网了解,Meta号称训练XLS-R采用的公共数据是其他语言模型的近10倍,它可以识别的语言类型也是其他模型的两倍多。细节方面,训练XLS-R的数据包括43.6万小时的公开演讲录音,涉及有声读物、议会程序等各种内容。
此外,Meta根据4大多语言语音识别准对XLS-R进行评估,经过测试37种语言识别,发现XLS-R的表现优于此前的方案。而经过微调后,XLS-R可以在英语和21种其他语言之间实时语音互译。
Meta表示:我们发现,最大的语音模型包含20亿个参数,与规模更小的模型相比,大规模模型的效果更好,因为参数越多意味着包含更多种语言的数据,训练效果更充分。目前,XLS-R翻译法语、德语的准确性更高,其次是俄语、葡萄牙语等等。未来,Meta计划让XLR-R支持多种语言。
转载请注明:http://www.0431gb208.com/sjszlfa/7145.html