语言小助手的识别技术

来源：语言识别时间：2023/10/30

近年来，随着人工智能技术的逐步落地，语音助手已经成为很多智能化产品的标配。以智能手机为例，只需对手机说一些指令，手机就可以自动完成很多操作。最常用的莫过于设置闹钟的场景。

一个用户通过语音让Siri设置闹钟的场景。Siri是如何听懂用户指令的呢？又是如何识别出用户指令就是设置闹钟这样一个意图呢？

就算它知道了设置闹钟，又是怎么知道向用户确定设置时间呢？用户提出的具体时间Siri又是怎样理解的呢？带你揭秘智能语音助手背后的技术。

语音助手背后的技术由三大块组成：语音识别、语文理解、语音合成。其中，语音识别和语音合成技术都是成熟的通用技术，只要语言(普通话或英语)确定了，就能使用通用的模型识别成文字或合成语音。

而语义理解却需要定制，毕竟不同的应用场景需要进行的理解与交互操作是不同的。

语音识别语音识别技术，也称为自动语音识别(automaticspeechrecognition，ASR)，主要是将人类语音中的词汇内容转换为计算机可读的输入，一般都是可以理解的文本内容，也有可能是二进制编码或者字符序列。

但是，一般理解的语音识别其实都是狭义的语音转文字的过程，简称语音转文本识别(speechtotext，STT)更合适，这样就能与语音合成对应起来。语音识别系统一般包含四部分：前端处理(预处理)、特征提取、模型训练、解码(语音识别结果)。

前端处理前端处理也称声学信号预处理，是语音识别的前提与基础。前端处理包括：端点检测、语音增强和声波处理。(1)端点检测是指在语音信号中将语音和非语音信号时段区分开来，准确地确定出语音信号的起始点。经过端点检测后，后续处理就可以只对语音信号进行，这对提高模型的精确度和识别正确率有重要作用。

(2)语音增强的主要任务就是消除环境噪声对语音的影响。(3)声波处理过程中，常应用到声音分帧。声音分帧，也就是把声音切开成一小段一小段，每小段称为一帧。

声音分帧不是简单地切开，各帧之间一般是有交叠的。分帧一般采用交叠分段的方法，是为了使帧与帧之间平滑过渡，保持其连续性。前一帧和后一帧的交叠部分称为帧移。

特征提取如何识别所说的一个单词？每一个单词都有模板，用于待预测语音与它进行比较。就是计算待预测信号与模板信号的“距离”，其实也就是相似程度，“距离”越短，相似程度越高。

但是信号的“距离”该怎么比较呢？就是通过把信号转换成特征向量，然后比较特征向量之间的“距离”，接下来，就来到了特征提取的部分。

模型与训练语音识别系统的目的，是把语音转换成文字。具体来说，是输入一段语音信号，要找文字序列，使得它与语音信号的匹配程度最高。

同一个人或者不同的人说一个汉字或者单词的发音是存在区别的，那么，这就要求多录几个模板。当成待识别语音，上下其他的反对齐至代表模板，进行匹配，那么经过人工智能算法之后，这样的话，识别准确率会大大提升。

解码语音识别首先是将一段语音信号经过特征提取的操作，把信号变成一个特征向量，特征提取也称为前端；后端主要是由解码器组成的，解码器又包括声学模型、字典和语言模型。

声学模型描述的是单词或者音素的发音情况，字典可以把音素拼接起来组成单词或者汉字，语言模型就是把单词整合成符合人类说话习惯的连续的语音，也就是把单词整合成一句话，最后将结果输出，就是最终想要得到的识别结果。解码就是通过声学模型，字典，语言模型对特征提取后的音频数据进行文字输出。#百万创作者计划#