毕业论文
您现在的位置: 语言识别 >> 语言识别前景 >> 正文 >> 正文

刘聪听懂方言的AI,科大讯飞中文语音识别

来源:语言识别 时间:2022/4/27

点击图片查看IU完整榜单↑

年1月21日,《麻省理工科技评论》公布了年“35岁以下创新35人”(InnovatorsUnder35China)中国区榜单。从榜单中,我们看到更多中国创新科研力量的崛起,也看到跨学科、跨领域、并且对落地应用有更强烈企图心与使命感的科研创新,这其中涵盖人工智能研究与应用、NLP、脑科学、新材料、新能源、生命科学、生物科技、自动驾驶等多个不同领域。我们将陆续发出对35位获奖者的独家专访,介绍他们的科技创新成果与经验,以及他们对科技趋势的理解与判断。

关于InnovatorsUnder35China榜单

自年起,《麻省理工科技评论》每年都会推出“35岁以下创新35人”(InnovatorsUnder35China)榜单,旨在于全球范围内评选出被认为最有才华、最具创新精神,以及最有可能改变世界的35位年轻技术创新者或企业家,共分为发明家、创业家、远见者、人文关怀者及先锋者五类。年,该榜单正式推出中国区评选,遴选中国籍的青年科技创新者。新一届榜单正在征集提名与报名,截止时间年5月31日。详情请见文末。

近年来,科大讯飞通过讯飞输入法和讯飞听见等产品逐渐为人所知。它们的语音识别表现之所以能够在业界独占鳌头,其背后的中文语音识别系统功不可没。科大讯飞AI研究院常务副院长刘聪,就是打造相关技术的主要负责人之一,他曾在年、年带领团队连续包揽国际英文多通道语音分离和识别大赛(CHiME-4、CHiME-5)的所有项目冠军。刘聪于年进入中国科学技术大学,攻读电子信息工程专业。大三时,他在机缘巧合之下听说了讯飞语音实验室,而后成功加入其中,开始了在语音识别领域的研究。年,刘聪博士毕业后正式成为讯飞研究院的一员,专心致力于大词汇量连续语音识别系统的构建和优化。年科大讯飞正式推出的“讯飞语音云”,凝聚了刘聪和团队在语音识别领域不断探索的成果,识别效果达到了当时业界领先的水平。在刘聪加入讯飞语音实验室时,深度学习方兴未艾,语音识别技术还处于发展初期,主流的传统方法包括基于隐马尔可夫模型(HMM)的区分性训练等,但仍有很多尚未被挖掘的研究方向。这些都吸引了他继续学习和研究,曾多次短期访问微软亚洲研究院和加拿大约克大学,研究和优化语音识别技术的算法。此后,随着深度学习技术的崛起,刘聪也将注意力转移到了该领域。从深度神经网络(DNN),到循环神经网络(RNN),再到卷积神经网络(CNN),刘聪和团队数年来持续更新着语音识别系统的框架和模型。年,在解决了训练收敛算法等技术难关后,他和团队提出了基于深度全序列卷积神经网络(DFCNN)的创新性语音识别框架,可以直接对整句语音而非局部的语音帧进行建模,同时因为卷积计算过程做了很大程度共享、使得可以设计非常深和宽的模型结构,以看到更长的历史和未来的语音上下文信息。此外,因为DFCNN模型相对于传统的RNN等模型可以同时抓住时域和频域的结构信息,因此在建模精度上也更胜一筹。在大数据和新技术的加持下,讯飞语音识别系统实现了高速自动迭代,语音识别错误率保持每年30%的相对下降,目前一般场景下的识别准确率可达98%。在此基础上,刘聪还带领团队创造多种了中文方言识别、语音即修即改等实用性很强的语音功能,让科技更好地应用在生活中。不过刘聪并没有止步于此,他

转载请注明:http://www.0431gb208.com/sjsbszl/52.html