机器之心专栏
论文作者:ShiliangZhang、LeiMing、ZhijieYan
语音领域顶级学术会议Interspeech将于9月15-19日在奥地利格拉茨开幕。本文介绍了阿里巴巴达摩院机器智能-语音实验室被此大会接收的一篇论文,作者们提出了一种自动纠错模型,该模型采用Transformer作为纠错器,将前端基于CTC的语音识别系统的识别结果作为输入,可以自动纠正大量的识别错误,特别是识别结果中的替换错误。
INTERSPEECH是语音科学和技术领域最大、最全面的国际学术会议,今年的大会将在奥地利第二大城市格拉茨举办。
在INTERSPEECH会议期间,来自全球学术界和产业界的研究人员齐聚一堂,讨论语音领域的新技术,包括语音合成、语音识别、语音增强这些细分领,在会议上展示的研究成果代表着语音相关领域的最新研究水平和未来的发展趋势。
今年也恰逢INTERSPEECH20周年。
在此篇被Interspeech接收的论文中,来自阿里巴巴达摩院-机器智能技术团队的研究者们提出了一种自动纠错模型(Listener-Decoder-Speller,LDS),该模型采用Transformer作为纠错器,将前端基于CTC的语音识别系统的识别结果作为输入,可以自动纠正大量的识别错误,特别是识别结果中的替换错误。
论文 Listener
Listener是一个基于DFSMN-CTC-sMBR的声学模型,可以基于输入的语音信号,预测每个声学建模单元的后验概率。在具体实验中,研究者探索了不同的声学建模(音节,字符)单元对其性能的影响。DFSMN(DeepFeedforwardSequentialMemoryNetworks)是研究者之前的工作中提出的一种网络结构,其模型结构如下图所示:
图2:DFSMN网络结构
2) Decoder
Decoder是一个解码器,可以单独对CTC声学模型进行解码,也可以通过联合语言模型进行解码,得到识别结果。相对应的解码方法分别称之为:Greedy-Search和WFST-Beam-Search。值得一提的是,本文中研究者提出采用N-best的数据扩展方法,保留N条识别结果的候选,用于扩充后端纠错模型的训练数据,显著提升了纠错模型的性能。
3) Speller
Speller是基于Transformer的纠错模型,其原理和机器翻译有异曲同工之处。Speller的输入是前端模型CTC的解码结果,预测的是真实的标注。由于Transformer具有很强的语义建模能力,可以有效地利用上下文信息,自动纠正识别结果中的很多错误,提升识别性能。关于Speller的模型框图如下图所示:
图3:Speller模型
研究者在一个2万小时中文数据库上对LDS模型进行了实验验证。验证采用DFSMN-CTC-sMBR模型联合N-gram语言模型作为基线系统,并在此基础上通过添加基于Transformer的Speller构建LDS。如下图4所示,在全部13个不同领域的测试数据集上,添加纠错模块可以使得识别系统获得显著的性能提升,提升范围大多在20%以上。通过对识别错误类型的统计,研究者进一步发现,通过添加纠错模型可以极大地降低识别过程中的替换错误。
图4:基线识别系统和添加了Speller的识别系统在不同测试集上的性能对比
图5:不同系统的错误类型和性能对比
图6:识别结果错误分析
关于阿里巴巴达摩院机器智能-语音实验室
阿里巴巴达摩院机器智能-语音实验室致力于语音识别、语音合成、语音唤醒、声学设计及信号处理、声纹识别、音频事件检测等下一代人机语音交互基础理论、关键技术和应用系统的研究工作,形成了覆盖电商、新零售、司法、交通、制造等多个行业的产品和解决方案,为消费者、企业和政府提供高质量的语音交互服务。年,达摩院语音实验室共8篇论文被语音领域顶会Interspeech收录,内容涵盖语音识别、转换、语音数据清洗打标、混合语言模型等方面。
转载请注明:http://www.0431gb208.com/sjslczl/2134.html