是谁在说话谷歌多人语音识别新系统错误率降

来源：语言识别时间：2022/6/14

??????????????? https://wapyyk.39.net/bj/zhuanke/89ac7.html

机器之心报道

机器之心编辑部语音识别系统现在不仅可以识别出「你说了什么」，而且可以在多人对话情境中准确识别出「是谁在说话」了。在最近公布的一项研究中，谷歌的最新说话人分类系统（speakerdiarizationsystem）将多人语音分类识别的错误率从20%降到了2%，获得了十倍的性能提升。识别「谁说了什么」，也就是「说话人分类」任务是自动理解人类对话音频的关键步骤。例如，在一个医生与患者的对话中，「患者」在回答医生的问题（「你经常服用心脏病药物吗？」）时说了「Yes」，这和医生用反问的语气说「Yes？」的含义截然不同。传统的说话人分类（SD）系统分为两步，第一步是检测声谱中的变化，从而确定说话人何时发生切换；第二步是识别对话中的每个说话人。这一基本的多步方法几乎已有20多年的历史，而在此期间，只有说话人切换检测得到了提升。在最新的一项研究中，谷歌公布了他们在说话人分类模型上取得的新进展。他们提出了一种基于RNN-T的说话人分类系统，将说话人分类错词率从20%降到了2%，性能提升了十倍。这一提升得益于RNN-T模型的最新进展，它为谷歌的新系统提供了一个适当的架构，能够克服之前说话人分类模型的一些局限。谷歌在一篇名为《JointSpeechRecognitionandSpeakerDiarizationviaSequenceTransduction》的论文中展示了这项研究，并将在年Interspeech大会上进行展示。论文链接：

转载请注明：http://www.0431gb208.com/sjszjzl/610.html

上一篇文章：将开源进行到底小米新一代Kaldi荣获

下一篇文章：没有了