毕业论文
您现在的位置: 语言识别 >> 语言识别介绍 >> 正文 >> 正文

重磅公开阿里语音识别模型端核心技术,让

来源:语言识别 时间:2022/4/20
北京治疗白癜风到哪个医院好 http://baidianfeng.39.net/a_cjzz/130905/4251012.html

阿里妹导读:语音识别技术作为人工智能技术中的重要组成部分,成为影响人机交互的核心组件之一,从各种智能家用IoT设备的语音交互能力,到公共服务、智慧政务等场合的应用,语音识别技术正在影响着人们生活的方方面面。

本文将全面介绍阿里云语音识别技术中的重要模型端技术,希望和业界同仁交流探讨。

本文作者:

鄢志杰、薛少飞、张仕良、郑昊、雷鸣

声学模型、语言模型和解码器可以看作是现代语音识别系统最核心的三个组成部分。虽然最近有一些研究者尝试构建End2end的语音识别系统,但包含声学模型、语言模型和解码器的现代语音识别系统依然是当前最主流和使用最广泛的系统。在这其中,声学模型主要用来构建输入语音和输出声学单元之间的概率映射关系;语言模型用来描述不同字词之间的概率搭配关系,使得识别出的句子更像自然文本;解码器负责结合声学单元概率数值和语言模型在不同搭配上的打分进行筛选,最终得到最可能的识别结果。

随着近几年深度学习的火热,语音识别领域也纷纷投入深度学习的大潮之中。将传统HMM-GMM声学模型替换成HMM-DNN声学模型后,可以获得超过20%的相对提升,在传统N-Gram语言模型基础上叠加NN-LM语言模型也可以获得进一步的提高。

在这过程中,声学模型由于更适合采用深度神经网络模型,从而受到研究者更多的

转载请注明:http://www.0431gb208.com/sjszlfa/28.html