毕业论文
您现在的位置: 语言识别 >> 语言识别介绍 >> 正文 >> 正文

语音识别ASR技术在智能语音机器人中的应

来源:语言识别 时间:2022/6/10

信息时代,科学技术的飞速发展带动人工智能化技术的更新进步。机器人的应用领域和范围也越来越广泛,在生产、建筑、旅游等各个行业都能够看到人工智能机器人的身影。旅游产业与互联网的结合,要随着信息技术的发展与时俱进。物联网、人工智能、虚拟现实等新兴的互联网技术让旅游产业的未来充满了挑战与机遇,导游等依赖大数据的职业完全可能被人工智能机器人取代。

本文主要介绍语音识别技术在智能语音机器人中的应用,一般语音机器人的设计开发主要着眼于“能听会说”,力图利用语音识别和语音合成等技术,将模拟的听说能力赋予机器人并生动地展示给观众,主要应用于展厅博物馆等场景,需考虑到机器人所处环境非常嘈杂,因此对系统的稳定性和抗噪性能都提出了较高的要求。此外,由于参与的观众来自全国各地,涉及不同性别、年龄、地域口音,所以系统声学模型的分类设计、调练和自动切换也是一个重要的设计要素。

智能语音机器人的总体设计

智能机器人与观众采用相互问答的小型对话形式进行交流。为实现上方便,可把问答对话的领域进行合理的限制。除迎宾和问候语外,可以设计4个问题域:有关时间、日期和星期的问答,有关全世界各大城市所在时区和当地时间的问答,以内的数学四则运算题目的问答,没有关系机器人的身世、本领等自身情况的问答。对于每个限定的问题域,相应词汇表的大小是有限的。在限定领域、有限词汇的条件下,机器人基本可以与观众进行自由问答,并可以在不同的问题与之间相互切换。系统工作流程图如下。

fromclipboard

系统启动并初始化后处于等待状态,如果没有观众靠近,机器人就定时反复播放自我介绍。如果有观众参观(由红外探测配合),系统检测到语音信号,便会从等待状态进入问答状态。在观众预先选定的问题域内,机器人将和观众进行“自由”问答,在回答观众提问的同时,机器人会有协调的动作加以配合:针对不同观众对机器人所提问题的不同回答,机器人会有不同的相应,并以此决定下一步的动作。在某些问题域内,机器人在对文档话过程中还会向观众提出一些问题,并等待观众回答。如果观众回答正确,机器人将表示祝贺,否则机器人将给出合理的提示(如噪声太大,讲话声音要大点,没有听清楚或者你的答案不正确等)。多次回答不正确时,机器人将给出正确答案,机器人与观众对话结束后,向观众道别,再次转入等待状态。

核心语音模块及关键技术

语音模块是智能机器人的核心构件,它完成的功能包括:机器人从外界接收观众的语街,送入语音识别器进行识别,再从识别结果中提取若干关键词,而后通过对这些关词的分析,将其映射为某个问题:机器人再针对此问题生成回答,最后将文本形式的答案合成为语音,输出给观众。如果观众的问题超出限定的对话范围或者识别结果可信度不高,则在答案生成阶段给出错误提示,并由语音合成器输出。如果机器人想向观众提出问题,也要由语音合成器合成后输出,模块的整体框架如下图所示。

fromclipboard

1.问题域相关的数据组织

机器人与观众的问答将限定在某个问题域内进行,针对每个问题域,我们确定了有限大小的“词汇表”,并通过大量的语料训练出相应的基于词类的统计“语言模型”“关键词表”可以从“词汇表”中提炼得到,它记录的是对于理解问题有实质作用的词汇及其相关信息,此外还要在“关键词表”的基础上形成“关键词类型组合模板库”,其中每个模板代表问题域内的一类具体问题。

fromclipboard

2.识别结果的可信度度量及拒识

从以上框图可以看到,语音识别器的识别结果作为“关键词提取”和“问题理解等后续各个步骤的原始输入,它的正确与否直接影响到整个系的性能。

在限定领域限定词汇量的条件下,如果观众的提问或回答不超出限定的词汇,识别结果的正确率可以达到95%以上。但是,一旦问题超出限定的领域或者出现了集外词,识别器的性能就会严重下降。因此对识别器识别结果的可信度进行度量就显得非常重要,它可以降低集外词(OOV)带来的不利影响。

我们采取的方法是利用统计语言模型衡量识别所得到的整个句子的可信度。如果一个句子的词误识率比较低,构成这个句子的众多三元短语(w1w2,w3),会比较多的出现在统计语言模型Trigram中;反之如果出现较多的识别错误,那么句子中大部分的词w1和元短语(wl,w2)将出现在Unigram或Bigram中,很少有三元短语命中Trigram对于一个由若干词W,W2,,Wi,…Wn构成的句子,我们根据各个词及它所构成的知语在统计语言模型中出现的情况对其中每个词打分。出现在Trigram中的可信度高,因而得分较高,出现在Bigram或Unigram中的可信度低,因而得分较低。再在各个词得分的基础上得到整个句子的可信度得分。若得分低于某个门限,则认为句子中包含较多的识别错误或者集外词,可信度较低,应当被拒识。

3.关键词检测

从识别器得到的识别结果,是由一个个词构成的词序列,其中某些词对于理解整个句子有着非常重要的作用,这就是我们所说的关键词。在这步要做的就是提取出这些关键词,形成一个关键词串,作为下一步问题理解”的输入,这种处理同时也是为了降低“问题理解”时的难度。针对上面提到的四个问题域,我们分别设计了关键词表,预先规定了在这一问题域内的关键词。这个关键表是语音识别系统中相应问题域下的词汇表的子集,记录了每个关键词的汉字串,类标识和词序号等信息。在提取关键词时,只需要在句子中进行搜索,检测到出现在关键间表的关键词,记录它们出现的位置和次序。比如一个句子“请问现在纽约的当地时间是几点钟?”我们可以提取出关键汉字串“现在纽约当地时间几点钟”以及对应的关键词类型串NOWCITY+LOCALTIME+CCLOCK”。对于不包含关键词的句子我们把它视作无效或者错误的输入,给出相应的提示。

4.问题理解和答案生成

“关键词提取”得到的关键词汉字串以及类型串将用于问题理解和答案生成。

在“问题理解”时,主要用到关键词类型串,通过与模板组合库中的模板对照,可以把它映射到某一类具体问题上。比如上面例子中的“NOW+CITY+LOCALTIME+OCLOCK”,就可以映射为“询问某城市的当地时间这类问题。在系统中针对每个不同的问题域,设计了许多关键字类型组合的模板,每个模板对应一类问题。如果关键字类型串成功映射为某类问题,即可转入“答案生成”,否则我们认为问题无效和错误在“答案生成”时,已经明确了问题的类型,相应回答的基本句式就已经确定,所需要的就是给句式赋予具体的内容。利用“关键词提取”得到的关键字汉字串和词序号等信息,可以唯一地确定问题的具体内容,并由此得到问题的最终答案。

以上介绍的是系统的总体结构和流程设计,针对机器人将要长期展出的要求,以及其展出环境比较嘈杂观众类型复杂、年龄跨度大等特点,还有许多实际问题需要解决。比如,针对现场环境噪声和不同的观众类型需要现场采集数据,进行声学模型训练;根据说话人的不同声学特性,要对说话人进行聚类,设计分类的声学模型,并在线选择、切换;另外还要设计不同的问题域,并组织数据和训练相应的语言模型。

预览时标签不可点收录于合集#个上一篇下一篇 转载请注明:http://www.0431gb208.com/sjszlfa/542.html