毕业论文
您现在的位置: 语言识别 >> 语言识别前景 >> 正文 >> 正文

极致课堂做好语音交互,你不得不知的核心技

来源:语言识别 时间:2022/10/5

在语音交互系统中,首先对输入的语音进行预处理,抑制噪声、回声、混响等各种干扰;然后对增强后的语音进行语音识别,检测语音信号中的言语内容信息;基于知识库进行语义理解与生成,最后由语音合成模块生成出真实感的语音,在这里重点介绍一下前端处理、语音识别、对话系统、语音合成等相关技术。

语音前端处理

语音前端处理技术对于提高语音交互的鲁棒性起到了非常重要的作用;通过前端处理模块抑制各种干扰,使增强后的语音更干净;尤其是面向智能家居和智能车载中的语音交互系统,语音前端处理模块扮演着重要角色。

前端处理包括回声消除、噪声抑制、混响抑制等技术。采集的语音首先利用参考源对各通道的信号进行回波消除,然后确定声源的方向信息,进而通过波束形成算法来增强目标方向的声音,再通过混响消除方法抑制混响。经过上述处理后的单路语音进行后置滤波消除残留的音乐噪声,然后通过自动增益算法调节各个频带的能量后最为前端处理的输出,将输出的音频传递给后端进行识别和理解。

语音识别

语音识别主要是建立一个声学参数到发音单元的映射模型或者叫判别模型,现在的方法从传统的GMM-HMM模型到基于深度学习的混合模型,再到最新的端到端的语音识别模型。

语音识别包括特征提取、声学模型、语言模型和解码器等模块。语音信号经过特征提取得到声学特征,再通过声学特征训练得到声学模型,声学模型结合语言模型以及发音词典构建解码器以后,最终识别出文本。语音识别只是语音交互的初级阶段,当前语音识别面临着强干扰、跨信道、多语言等挑战性问题。

对话系统

对话系统大致可分为两种:任务导向型对话系统和非任务导向型对话系统。

面向任务的系统旨在帮助用户完成实际具体的任务,例如帮助用户找寻商品,预订酒店餐厅等。系统首先理解人类所传达的信息,将其作为一种内部状态,然后根据对话状态的策略采取一系列相应的行为,最后将动作转化为自然语言的表现形式。

非任务导向的对话系统与人类交互,提供合理的回复和娱乐消遣功能,通常情况下主要集中在开放的领域与人交谈。对于非任务导向型对话系统,目前主要用的是两种方法:生成方法,在对话过程中产生合适的回复,这种方法相对更为灵活,它的缺点是会出现语法错误;基于检索的方法,从事先定义好的索引中进行搜索,学习从当前对话中选择回复。检索型方法的缺点在于它过于依赖数据质量。

语音合成

语音合成主要包括波形拼接合成和统计参数合成两种方式。

波形拼接语音合成需要有足够的高质量发音人录音才能够合成高质量的语音,早期的语音合成大多采用波形拼接的方式。统计参数语音合成虽然整体合成质量略低,但是在发音人语料规模有限的条件下,优势更为明显。

语音合成可分为文本分析、韵律分析和声学分析三个部分,通过文本分析提取出文本特征,在此基础上预测基频、时长、节奏等多种韵律特征,然后通过声学分析模块合成出语音。

极限元作为国内领先的人工智能公司,以“智能交互”为核心,拥有自主产权的智能语音、人机对话、自然语言处理、大数据分析等AI技术,推出了云端、桌面、嵌入式等跨平台AI技术解决方案,产品和服务广泛应用于教育、安全、交通、智能硬件等多个领域。公司致力于发展智能交互技术,与中国科学院自动化研究所挂牌成立了“智能交互联合实验室”服务于腾讯、奇虎、搜狗等公司以及网信办、公安部门等国家相关安全机构。

转载请注明:http://www.0431gb208.com/sjsbszl/1848.html