小鹏汽车提出判别性多模态语音识别智东西

来源：语言识别时间：2022/9/28

5月14日消息，小鹏汽车在论文《判别性多模态语音识别，DiscriminativeMulti-modalitySR》提出了一个两阶段语音识别模型。在第一阶段，通过唇动的视觉信息将目标语音从背景噪声中分离出来，使模型能够清晰地理解。第二阶段，音频模态再次结合视觉模态，通过MSR子网络更好地理解语音，进一步提高识别率。据介绍，通过在LRS3-TED和LRW数据集上进行了大量的实验。该两阶段模型(音频增强多模态语音识别，AE-MSR)以显著的优势达到了最先进的性能，这证明了AE-MSR的必要性和有效性。

转载请注明：http://www.0431gb208.com/sjszlfa/1748.html

上一篇文章：英国本科留学一年费用有哪些这项开支千万别

下一篇文章：未来十年,AI语音识别将朝着这五个方向发