机器之心报道
机器之心编辑部语音识别系统现在不仅可以识别出「你说了什么」,而且可以在多人对话情境中准确识别出「是谁在说话」了。在最近公布的一项研究中,谷歌的最新说话人分类系统(speakerdiarizationsystem)将多人语音分类识别的错误率从20%降到了2%,获得了十倍的性能提升。识别「谁说了什么」,也就是「说话人分类」任务是自动理解人类对话音频的关键步骤。例如,在一个医生与患者的对话中,「患者」在回答医生的问题(「你经常服用心脏病药物吗?」)时说了「Yes」,这和医生用反问的语气说「Yes?」的含义截然不同。传统的说话人分类(SD)系统分为两步,第一步是检测声谱中的变化,从而确定说话人何时发生切换;第二步是识别对话中的每个说话人。这一基本的多步方法几乎已有20多年的历史,而在此期间,只有说话人切换检测得到了提升。在最新的一项研究中,谷歌公布了他们在说话人分类模型上取得的新进展。他们提出了一种基于RNN-T的说话人分类系统,将说话人分类错词率从20%降到了2%,性能提升了十倍。这一提升得益于RNN-T模型的最新进展,它为谷歌的新系统提供了一个适当的架构,能够克服之前说话人分类模型的一些局限。谷歌在一篇名为《JointSpeechRecognitionandSpeakerDiarizationviaSequenceTransduction》的论文中展示了这项研究,并将在年Interspeech大会上进行展示。论文链接:转载请注明:http://www.0431gb208.com/sjszjzl/610.html