在孤立词语音识别中,动态时间规整DTW算法是一种应用较为广泛的算法之一,有着较强的科学性,在立足于当前DTW语音识别算法应用的实际情况下,简略阐述了该课题的研究背景,并从预处理和特征参数提取以及DTW算法两方面着手对基于DTW算法的语音识别系统实现进行了探究,以此为基础展开了相应的仿真和分析,旨在为相关研究人员提供参考.
语音识别系统的典型原理框图如图1-1所示。从图中可以看出语音识别系统的本质就是一种模式识别系统,它也包括特征提取、模式匹配、参考模式库等基本单元。由于语音信号是一种典型的非平稳信号,加之呼吸气流、外部噪音、电流干扰等使得语音信号不能直接用于提取特征,而要进行前期的预处理。预处理过程包括预滤波、采样和量化、分帧、加窗、预加重、端点检测等。经过预处理的语音数据就可以进行特征参数提取。在训练阶段,将特征参数进行一定的处理之后,为每个词条得到一个模型,保存为模板库。在识别阶段,语音信号经过相同的通道得到语音参数,生成测试模板,与参考模板进行匹配,将匹配分数最高的参考模板作为识别结果。后续的处理过程还可能包括更高层次的词法、句法和文法处理等,从而最终将输入的语音信号转变成文本或命令。
本文所描述的语音识别系统(下称本系统)将对数字0~9共10段参考语音进行训练并建立模板库,之后将对多段测试语音进行识别测试。系统实现了上图中的语音输入、预处理、特征提取、训练建立模板库和识别等模块,最终建立了一个比较完整的语音识别系统。
2部分代码function[x,mn,mx]=melbankm(p,n,fs,fl,fh,w)%MELBANKMdeterminematrixforamel-spacedfilterbank[X,MN,MX]=(P,N,FS,FL,FH,W)%%Inputs:pnumberoffiltersinfilterbank%nlengthoffft%fssamplerateinHz%fllowendofthelowestfilterasafractionoffs(default=0)%fhhighendofhighestfilterasafractionoffs(default=0.5)%wanysensible
转载请注明:http://www.0431gb208.com/sjszyzl/119.html