编辑:好困
清华大学联合字节火山语音团队提出了一种全新的「听觉」大语言模型——SALMONN。不仅能够感知和理解各种类型的音频输入,而且还涌现出了多语言和跨模态推理等高级能力。日前,清华大学电子工程系与火山语音团队携手合作,推出认知导向的开源听觉大语言模型SALMONN(SpeechAudioLanguageMusicOpenNeuralNetwork)。
大语言模型SALMONN
相较于仅仅支持语音输入或非语音音频输入的其他大模型,SALMONN对语音、音频事件、音乐等各类音频输入都具有感知和理解能力,相当于给大语言模型「加了个耳朵」,从而涌现出多语言和跨模态推理等高级能力。
(注意:本文中涌现能力是指模型训练中没有学习过的跨模态能力。)
具体来说,通过给Vicuna13B大语言模型增加一个基于WhisperEncoder的通用音频编码器,并使用一个融合器对齐音频和文本模态,SALMONN模型就对音频模态具有了直接感知,不再是「缸中之脑」。
与先使用API调用「ToolFormer」,将语音或非语音音频输入转为文字,再将文字输入大语言模型的API路线相比,SALMONN可以直接从物理世界获取知识,并对一些复杂的音频场景涌现出完整的理解能力。
此外与传统的语音识别、音频字幕生成等语音和音频处理任务相比,SALMONN利用了大语言模型从海量文本中学习得到的常识和认知能力,实现了一种认知导向的音频感知,大幅提高了模型的通用性和任务的丰富性;另外SALMONN能够较为准确地听从使用者的文本指令,甚至语音指令。
由于该模型只使用了基于文本指令的训练数据,因此听从语音指令也是一种跨模态的涌现能力。
Github仓库:
转载请注明:http://www.0431gb208.com/sjslczl/6127.html