毕业论文
您现在的位置: 语言识别 >> 语言识别前景 >> 正文 >> 正文

专访百度语音识别技术负责人李先刚如何利用

来源:语言识别 时间:2024/10/2
北京看白癜风的最专业医院 http://www.t52mall.com/
-11-04赵云峰机器之心机器之心原创作者:赵云峰技术顾问:赵巍、YuxiLi近日,百度将DeepCNN应用于语音识别研究,使用了VGGNet,以及包含Residual连接的深层CNN等结构,并将LSTM和CTC的端对端语音识别技术相结合,使得识别错误率相对下降了10%(原错误率的90%)以上。机器之心对百度语音技术部识别技术负责人,同时也是DeepSpeech中文研发负责人李先刚博士进行了独家专访,李先刚博士详细解读了DeepCNN中的各项技术以及研究思路,并表示此次语音识别技术的提升将在接下来用于语音搜索产品。而百度正在努力推进DeepSpeech3,这项研究不排除将会是DeepSpeech3的核心组成部分。以下是采访内容:机器之心:能先大体介绍一下DeepCNN吗?李先刚:百度这次利用深层卷积神经网络技术(DeepCNN)应用于语音识别声学建模中,将其与基于长短时记忆单元(LSTM)和连接时序分类(CTC)的端对端语音识别技术相结合,大幅度提升语音识别产品性能。该技术相较于工业界现有的CLDNN结构(CNN+5LSTM+DNN)的语音识别产品技术,错误率相对降低10%。该技术借鉴了图像识别在近些年的成果,以及语音与图像在利用CNN模型训练的共通性,是在端对端语音识别技术的革新之后取得的新的技术突破。其实最早CNN在语音领域是有应用的,这两年语音研究专注的主要是RNN,而图像领域专注的CNN。在语音领域的研究者把LSTM和RNN做的很好之后,发现CNN的发展在语音领域是可以借鉴和有所帮助的。比如从ImageNet竞赛中就可以看出深层卷积神经网络方面的进展。这些网络结构有一个明显的发展趋势,就是越来越深的卷积神经网络层级(CNN):从最初的8层网络,到19层,22层,乃至层的网络结构。ImageNet竞赛的错误率也从12年的16.4%逐步降到了3.57%。在这个背景下,深层CNN成为今年语音领域前沿研究中最火的东西,很多公司都在做这方面研究。而我们这次做CNN有个很好的点是有个baseline,这是基于DeepSpeech2端对端基础上,进一步通过引入CNN来实现更好效果,这是我们的研究背景。在这个情况下,我们做了一些非常有意思的实验和希望得到最好性能的工作。为什么说最好性能呢?因为我们做的工作都是大数据,调参时有上万小时,做产品时甚至有10万小时。我们希望通过这些来验证,DeepCNN是真的可以发挥作用,因为你会发现,现在很多基于数据集做的算法在大数据时可能就没用了,但我们发现它是有用的,在端到端框架下也是有用的,这可能算是我们的一个突破点和贡献。机器之心:微软最近也公布了一项语音识别的突破,能对比一下这两项研究吗?李先刚:微软这次研究更加学术,是在一些标准数据库上做的,是一个口语数据库,叫做switchboard,数据库只有2,小时。这个工作是微软研究院做的,他们的

转载请注明:http://www.0431gb208.com/sjsbszl/7673.html