近年来,随着人工智能技术的逐步落地,语音助手已经成为很多智能化产品的标配。以智能手机为例,只需对手机说一些指令,手机就可以自动完成很多操作。最常用的莫过于设置闹钟的场景。
一个用户通过语音让Siri设置闹钟的场景。Siri是如何听懂用户指令的呢?又是如何识别出用户指令就是设置闹钟这样一个意图呢?
就算它知道了设置闹钟,又是怎么知道向用户确定设置时间呢?用户提出的具体时间Siri又是怎样理解的呢?带你揭秘智能语音助手背后的技术。
语音助手背后的技术由三大块组成:语音识别、语文理解、语音合成。其中,语音识别和语音合成技术都是成熟的通用技术,只要语言(普通话或英语)确定了,就能使用通用的模型识别成文字或合成语音。
而语义理解却需要定制,毕竟不同的应用场景需要进行的理解与交互操作是不同的。
语音识别语音识别技术,也称为自动语音识别(automaticspeechrecognition,ASR),主要是将人类语音中的词汇内容转换为计算机可读的输入,一般都是可以理解的文本内容,也有可能是二进制编码或者字符序列。
但是,一般理解的语音识别其实都是狭义的语音转文字的过程,简称语音转文本识别(speechtotext,STT)更合适,这样就能与语音合成对应起来。语音识别系统一般包含四部分:前端处理(预处理)、特征提取、模型训练、解码(语音识别结果)。
前端处理前端处理也称声学信号预处理,是语音识别的前提与基础。前端处理包括:端点检测、语音增强和声波处理。(1)端点检测是指在语音信号中将语音和非语音信号时段区分开来,准确地确定出语音信号的起始点。经过端点检测后,后续处理就可以只对语音信号进行,这对提高模型的精确度和识别正确率有重要作用。
(2)语音增强的主要任务就是消除环境噪声对语音的影响。(3)声波处理过程中,常应用到声音分帧。声音分帧,也就是把声音切开成一小段一小段,每小段称为一帧。
声音分帧不是简单地切开,各帧之间一般是有交叠的。分帧一般采用交叠分段的方法,是为了使帧与帧之间平滑过渡,保持其连续性。前一帧和后一帧的交叠部分称为帧移。
特征提取如何识别所说的一个单词?每一个单词都有模板,用于待预测语音与它进行比较。就是计算待预测信号与模板信号的“距离”,其实也就是相似程度,“距离”越短,相似程度越高。
但是信号的“距离”该怎么比较呢?就是通过把信号转换成特征向量,然后比较特征向量之间的“距离”,接下来,就来到了特征提取的部分。
模型与训练语音识别系统的目的,是把语音转换成文字。具体来说,是输入一段语音信号,要找文字序列,使得它与语音信号的匹配程度最高。
同一个人或者不同的人说一个汉字或者单词的发音是存在区别的,那么,这就要求多录几个模板。当成待识别语音,上下其他的反对齐至代表模板,进行匹配,那么经过人工智能算法之后,这样的话,识别准确率会大大提升。
解码语音识别首先是将一段语音信号经过特征提取的操作,把信号变成一个特征向量,特征提取也称为前端;后端主要是由解码器组成的,解码器又包括声学模型、字典和语言模型。
声学模型描述的是单词或者音素的发音情况,字典可以把音素拼接起来组成单词或者汉字,语言模型就是把单词整合成符合人类说话习惯的连续的语音,也就是把单词整合成一句话,最后将结果输出,就是最终想要得到的识别结果。解码就是通过声学模型,字典,语言模型对特征提取后的音频数据进行文字输出。#百万创作者计划#转载请注明:http://www.0431gb208.com/sjszjzl/6165.html