阿里云ET智能语音如何识别主副驾语音指令

来源：语言识别时间：2022/5/4

说一个有趣的故事，上周的一次同城趴，小斑的同学去现场支持，一位荣威RX5的车主对斑马智行2.0的升级功能有些“嗤之以鼻”——“你们就开放了视频功能，这也算是大升级”？

同事坐在副驾驶，笑了笑，说出了那条简单的“你好斑马，打开座椅加热”。

然后，车主就惊了。

在斑马内部的产品沟通会上，通过对前期内测的“种马用户”的调研中发现，优先升级的车主有三分之二对“智能定向语音”指令的功能表示了兴趣并点赞。很多人还反馈，这么好的功能，为何不在1.0的时候就提供给各位用户使用。

小斑表示——“谁打牌四个二两个王的一起甩啊”！

常用常新的感知就在于，每一期升级和改变都会给车主以及行业带来一些全新的产品方向和体验。作为斑马智行2.0的语音中最重要的功能之一，很多车主也在纳闷，智能语音定向的功能是如何实现的呢？

在斑马智行将语音引擎切换到阿里云ET智能语音之后，对于斑马来说这样的引擎切换带来革命性的变化，在此引擎上可以延伸的服务和功能更随性和自由，同时为这一次智能语音定向功能的开放带来可能。

不过小斑其实想纠正很多人一个概念：语音识别≠语音技术。

或者说，语音技术中，语音识别只是其中的一个分支，语音技术还有其他多种应用，比如说话人识别、语种识别、语音合成、音色转换、语音增强等等。

但语音识别却是当前技术环境下发展最快、热度最高，大家生活中接触最多的语音技术之一。语音识别的进步代表着机器的听力发展，是人工智能的重要一步。让机器听懂人话，并没有大家想象的那么简单。

上汽乘用车旗下已经上市的部分汽车，尤其是作为首款互联网汽车的荣威RX5互联网版本车型能称之为智能汽车，最重要的原因就是其传统的大脑（ECU）之外，还增加了智能操作系统与互联网以及云端的交互，云计算和互联能力更强。大脑有了，摄像头就是它的眼睛；通过各种围绕车身的雷达为它提供了感知环境的能力；各种车身传感器就是其“神经网络”；语音识别应该就是它的“耳朵”了。

在车内的语音识别的主要问题在于车内的噪音如何抑制，在这方面，就需要祭出传统的解决办法——麦克风阵列。

麦克风阵列的意思很简单，就是由一定数目的声学传感器（麦克风）组成，用来对声场的空间特性进行采样并处理的系统。其实在上个世纪70、80年代，语音信号的处理曾经对麦克风阵列非常依赖；90年代后，基于麦克风阵列的语音信号处理算法又大热，而现如今，在“声控时代”下，这项技术又焕发出全新的光辉。

在斑马智行1.0时代，其实智能语音定向的功能也存在的，不过仅局限在主驾驶位，无论你在后座、副驾驶说出“你好斑马”的时候，是无法识别并执行命令的，这其实也运用了只能语音定向的功能，只不过是单向的。

这个语音识别的技术叫做“声源定位”。

声源定位技术在人工智能领域的应用非常广泛。它利用麦克风阵列来形成空间笛卡尔坐标系，根据不同的阵线阵列、平面阵列和空间阵列，来确定声源在空间中的位置。斑马的麦克风阵列首先要对声源的位置做进一步的语音增强，当获取你的位置信息后，再结合语义识别等技术定向识别你的语音指令并智行。

在日常的人工智能领域中，此项功能的利用也非常应景。比如说你可以通过指令唤醒机器人，机器人的声源定位可以直接让它走到你的身边为你服务；在智能的视频会议设备中，系统会根据你的语音指令定点通过摄像头和拾音器聚焦说话人的演讲内容。

说人话就是，当你在车内说话时，第一个捕捉到你声音的麦克风会对声音进行定向，然后只识别这个特定方向传来的声音，这个麦克风也会成为这次语音命令的输入源。智能语音双定向也是将此项声源定位的功能进行进一步的扩展，将仅主驾驶的语音指令控制扩展为副驾驶也可控。

但考虑到对车内功能的控制，主副驾驶不仅在指令的权重方面有着区别，在可控单元方面也有更人性化的安排。也就是说当主驾驶在发出语音指令的同时，隔壁的麦克风听到了副驾驶的说话声，这并不会对此次语音输入造成影响。

在可控指令方面，主副驾驶对车辆控制也有区别，比如说主驾驶可以控制全部车辆可语音控制的功能，而副驾驶的权限则有一些区别，比如说在打开座椅加热的时候，副驾驶的指令只能打开副驾驶的座椅加热等等，当然这也是根据一些人性化设计而为之。

当阵列中的麦克风数量越多，其所定位的方位越狭窄，那么所受到的干扰就会越小。

在最后，小斑想跟大家说说关于语音识别中最重要的车内降噪技术。

车内麦克风阵列在拾音时主要面临环境噪声（发动机噪声、风噪、胎噪、路噪等）、车内混响、人声叠加、模型噪声、阵列结构等问题，若使用到语音识别场景，还要考虑针对语音识别的优化和匹配等问题。为了解决上述问题，关键技术尤为重要。

此项技术在手机行业中的应用已久，技术也相对成熟，在嘈杂的环境下，手机的拾音器也可以过滤掉周围的噪声并将机主的声音增强，起到清晰语音的效果。

其实在车内的噪声抑制相对简单，车内一般的环境噪音通常不具有空间指向性，对声音的影响不大，不会对正常的语音有掩盖的效果，只是会对语音的清晰度和可懂度有一定印象，但车内噪音的抑制相对简单，应对日常的使用场景的语音交互足矣。

当然在语音降噪方面这其中还包含了“混响消除”、“声源信号提取与分离”“声源侧向”“波束形成”“阵列增益”“模型匹配”等，由于技术手册太过枯燥（其实是我也没看懂）小斑在这里就不一一展示了，你只要知道，实现这个技术只有一步，但前期的技术很牛X就对了。

下一期，小斑想跟大家说说关于语音识别率的参数问题，大家有什么想要知道的，也可以留言中告诉我，小斑在之后的文章中尽量给大家解答。

功能介绍

2.0新功能

蓝牙

语音

视频

互联认证

智慧停车

违章查询

社区升级

外接设备

什么是OTA

2.0再升级

升级指南

功能升级

升级问题

问答介绍

智慧停车

安驾优享

社区说明

建议反馈

智能停车

2.0升级

智能语音

2.0使用

▼

你想了解的互联网汽车在这里

还有一切有趣的事儿……

预览时标签不可点收录于话题#个上一篇下一篇

转载请注明：http://www.0431gb208.com/sjszjzl/120.html

上一篇文章： GaussMind语音识别ASR技术

下一篇文章：依图夺冠世界级声纹识别竞赛智能语音战场