白癜风专科的医院 https://m.39.net/disease/a_z6fvsj6.html雷锋网AI科技评论按:把一段输入音频转换为一段文本的任务「自动语音识别(ASR)」,是深度神经网络的流行带来了极大变革的人工智能任务之一。如今常用的手机语音输入、YouTube自动字幕生成、智能家电的语音控制都受益于自动语音识别技术的发展。不过,开发基于深度学习的语音识别系统还不是一个已经完善解决的问题,其中一方面的难点在于,含有大量参数的语音识别系统很容易过拟合到训练数据上,当训练不够充分时就无法很好地泛化到从未见过的数据。当对于图像分类任务,当训练数据的数量不足的时候我们可以使用各种数据扩增(dataaugmentation)方法生成更多数据,提高网络的表现。但是在自动语音识别任务中情况有所不同,传统的数据扩增方法一般是对音频波形做一些变形(比如加速、减速),或者增加背景噪声,都可以生成新的训练数据,起到把训练数据集变大的效果,帮助网络更好地学习到有用的特征。不过,现有的传统音频数据扩增方法会带来明显的额外计算能力开销,有时也避免不了需要使用额外的数据。在谷歌AI的近期论文《SpecAugment:ASimpleDataAugmentationMethodforAutomaticSpeechRecognition》(SpecAugment:一个用于自动语音识别的简单数据扩增方法,
转载请注明:http://www.0431gb208.com/sjszlfa/8146.html