开发必读语音交互能力构建的关键与难点

来源：语言识别时间：2022/10/6

北京知名手足癣医院 https://m-mip.39.net/czk/mipso_8833641.html

10月11日，在全球开发者节临近之际，智东西公开课联合科大讯飞推出超级公开课科大讯飞专场，主题为《如何为不同硬件产品快速构建语音交互能力》，由讯飞开放平台技术支持经理汪舰主讲。

汪舰老师从语音交互流程展开讲解，并对语音识别、语义理解、语音合成、麦克风阵列等语音交互关键技术进行了深度解析；最后汪舰老师从智能家居场景出发，为我们分析了不同硬件产品构建语音交互能力的关键所在及解决办法。

本文根据公开课直播讲解整理而来，共计余字，预计读完需要10分钟，提纲如下：

1、语音交互流程解析

2、语音交互关键技术的应用现状与难点

3、不同硬件产品语音交互能力设计思路与解决方案

主讲实录

汪舰：各位智东西公开课的小伙伴，大家好，我是科大讯飞开放平台技术支持经理汪舰，今天很高兴有机会和大家一起分享我对人机语音交互的理解和心得。

从《星球大战》、《钢铁侠》这样的科幻大片，到苹果的siri、微软小娜这些语音助手，再到各种语音输入法、语音遥控器等，人机交互已经从遥不可及的梦想变成了现实，甚至我们已经在日常生活和工作中进行使用。

语音交互流程解析

首先给大家简单介绍一下人机语音交互的基本流程。

从这张图片大家可以看到传统的人机语音交互链路是非常短的，也非常简单，主要包括语音识别、语义理解和语音合成三个单点技术。语音识别就是把语音变成对应的文字；语义理解就是对识别出来的文字进行语义的理解，提取出说话人想要表达的意思和意图；语音合成就是对说话人的意图的执行和回应。这就是最简单的人机交互链路。

但是在实践过程中我们也越来越发现，有很多用户场景的需求基于传统的人机交互链路的解决方案是无法满足的，带来的体验感非常差，甚至会导致用户对语音交互失去信心。

下面是当下比较主流的，也是相对体验感较好的一类人机交互链路。

从这张图片可以看出，目前整体的交互流程已经比较复杂了，除了有之前的语音识别、语义理解和语音合成外，还增加了语音唤醒这个统一的交互入口。

同时在语音识别过程中也添加了更多的后端支持，包括端点检测、回音消除、声源定位、降噪等，也会从云端的知识库中拉取个性化词库来帮助我们在识别阶段准确识别一些专有名词；

语义理解部分也比之前要复杂得多，它要处理一下无效指令，因为麦克风会无差别的录入环境噪音，或者是用户的非交互状态下表达的内容，语义识别系统需要把无效指令提取出来并忽略掉，我们称为无效拒识；对于正常的语音识别，能够支持上下文信息的关联，包括内容管理、对话管理等；

在语音合成部分，我们也发现用户对机器的声音要求越来越高，用户希望机器发出来的声音是带有情感的，能够迎合用户的需求，而这些情感信息是通过语义理解系统输出来的。比如我们能够分析出用户的这句话其实是表达生气和责备，语义理解把情感音素提取出来后，会把信息传到语音合成模块，语音合成模块拿到这个信息之后，会拿一个相匹配的音色和语气进行合成。

现在我们看一下全双工交互。现实生活中，人和人之间的交流和交互就是一个典型的全双工交互场景，而这里的全双工最主要的特征有三点：持续、双向、可打断。

持续其实很好理解，在传统的交互模式中，一次唤醒对应一次识别，也就是说每次的交互都需要喊一下对方的名字，比如:“张三张三帮我查一下天气”、“张三张三帮我订一张机票”，但是人和人之间的说话不是这样的，我如果想找某个人说话，最多只会喊一次他的名字，接下来的交互就是持续的。因此这里持续交互的意思是：我的交互在最开始的入口就只有一次唤醒，在接下来一段时间内，我可以进行多次交互，即在这段时间里整个识别进程是在持续循环进行的。

这里涉及到一个底层技术点叫模型VAD(VoiceActivityDetection)，又称语音端点检测或语音边界检测，大家可以理解为智能断句。算法需要能够准确的判断从哪里到哪里是一句完整的话，从哪里到哪里又是另外一句话。

但是传统的断点检测其实是基于声音的能量维度去判断的，主要有两个缺点：无法解决噪声和无效语音、对说话人的要求比较高；在说话的中间不能有停顿，长时间停顿时一句完整的话可能就会被切开，一句完整的话就会变成两句，造成到后面整个识别过程都是乱的。VAD的端点检测可以过滤掉环境声音的干扰，只

转载请注明：http://www.0431gb208.com/sjslczl/1874.html

上一篇文章：依图科技发布语音开放平台联袂微软华为布

下一篇文章：搜狗要利用AI深度理解语言本身,建立个人