浙江财经大学人工智能体验园由视频展示介绍区、机器感知区、互动体验区、机器执行区、虚拟现实区、综合应用区和互动编程体验区等六部分构成。本篇文章就来介绍机器感知区中的语音识别系统。
语音识别演示系统展示了计算机自动将人类的语音内容转换为相应文字的能力。语音识别基本过程为语音信号预处理与特征提取、声学模型与模式匹配、语言模型与语言处理。
语言识别技术有以下几个原理:
训练
预先分析出语音特征参数、制作语音模版并存放在语音参数库中。
识别
待识语音经过与训练时相同的分析,得到语音参数,将它与库中的参考模板——比较并采用判决的方法找出最接近语音特征的模板得出识别结果。识别有以下几种方法:基于模式匹配的动态时间规整法、基于统计模型的隐马尔柯夫模型法、基于统计模型的深度神经网络。
失真测度
在进行比较时要有个标准,这就是计量语音特征参数矢量之间的“失真测度”。
从语音识别算法的发展来看,主要分为三大类:
1.第一类是模型匹配法,包括矢量量化(VQ)、动态时间规整(DTW)等;
2.第二类是概率统计方法,包括高斯混合模型(GMM)、隐马尔科夫模型(HMM)等;
3.第三类是辨别器分类方法,如支持向量机(SVM)、人工神经网络(ANN)和深度神经网络(DNN)等以及混合方法。
下面介绍三种比较常见的算法:
1.动态时间规整(DTW):语音识别中,由于语音信号的随机性,即使同一个人发的同一个音,只要说话环境和情绪不同,时间长度也不尽相同,因此时间规整是必不可少的。DTW是一种将时间规整与距离测度有机结合的非线性规整技术,在用于语音识别时,需要把测试模板与参考模板进行实际比对和非线性伸缩,并依照某种距离测度选取距离最小的模板作为识别结果输出。动态时间规整技术的引入,将测试语音映射到标准语音时间轴上,使长短不等的两个信号最后通过时间轴弯折达到一样的时间长度,进而使得匹配差别最小结合距离测度,得到测试语音与标准语音之间的距离。
2.隐马尔科夫模型(HMM):隐马尔科夫模型是一种统计模型,目前多应用于语音信号处理领域在该模型中,马尔科夫Markov链中的一个状态是否转移到另一个状态取决于状态转移概率,而某一状态产生的观察值取决于状态生成概率。在进行语音识别时,HMM首先为每个识别单元建立发声模型,通过长时间训练得到状态转移概率矩阵和输出概率矩阵,在识别时根据状态转移过程中的最大概率进行判决。
3.矢量量化(VQ):矢量量化是一种广泛应用于语音和图像压缩编码等领域的重要信号压缩技术,思想来自香农的率-失真理论:其基本原理是把每帧特征矢量参数在多维空间中进行整体量化,在信息量损失较小的情况下对数据进行压缩。因此,它不仅可以减小数据存储,而且还能提高系统运行速度,保证语音编码质量和压缩效率,一般应用于小词汇量的孤立词语音识别系统。
文案
人工智能协会
编辑
江金迅
审核
应楷
预览时标签不可点收录于合集#个上一篇下一篇