谷歌再获语音识别新进展利用序列转导来实现

来源：语言识别时间：2022/9/28

雷锋网AI科技评论按：从WaveNet到Tacotron，再到RNN-T，谷歌一直站在语音人工智能技术的最前沿。近日，他们又将多人语音识别和说话人分类问题融合在了同一个网络模型中，在模型性能上取得了重大的突破。

对于自动理解人类音频的任务来说，识别「谁说了什么」（或称「说话人分类」）是一个关键的步骤。例如，在一段医生和患者的对话中，医生问：「你按时服用心脏病药物了吗？」患回答道：「Yes」。这与医生反问患者「Yes？」的意义是有本质区别的。

传统的说话人分类（speakerdiarization，SD）系统有两个步骤。在第一步中，系统将检测声谱中的变化，从而确定在一段对话中，说话人什么时候改变了；在第二步中，系统将识别出整段对话中的各个说话人。这种基础的多步方法（相关阅读：