语音交互大模型,更拟人的车机交互何时出

来源：语言识别时间：2024/9/19

在FF.0的发布会上，我们看到了这样一段语音交互。

“帮我在Malibu找一家有户外座位且评价至少4星的意大利餐厅，不要披萨店。”这段语音中包含了5个具体的指令和明确的筛选项，且没有唤醒词，系统随后也给出了对应选项。

不论真假，出于好奇，AutoLab在发布会第二天，以相同的条件随机测试部分造车新势力车型的语音交互能力，结果均未能完成。

除此之外，视频的重点在于指令更加符合人与人之间的交流逻辑，这也意味着它足够拟人。而实现这套拟人化语音助手背后的推手，就是赛轮思。

行业数据显示，年中国国内车载语音市场集中度相当之高，仅赛轮思和科大讯飞两家，占比已经超过70%。科大讯飞大家都很熟悉了，在国内合作的主机厂也很多。

而另外一家赛轮思，想必绝大部分观众都未曾听说，其实苹果的“Siri”就是由赛轮思和苹果共同开发的产品。除此之外，赛轮思的服务对象除了国内外的主机厂商和Tier1之外，还包含了像英伟达，苹果这类的科技巨头。

如何看待语音交互未来发展方向，赛轮思又如何应对接下来行业挑战。AutoLab借赛轮思首席执行官StefanOrtmanns博士这次来中国，在采访中得到了一些答案。

当前语音交互最大的应用场景是基于用户给出的需求，系统做出对应的指令。也就是一问一答，通过还要伴随着固定的唤醒词汇。此前，在理想家庭科技日上，我们看到了大模型运用在语音交互端的实力，可以出口成章，制定旅行计划，更清晰的理解词义。

但随着我们看到大模型的泛化能力和AI技术的不断提升，用户对于语音交互的要求也会更高。除了更拟人的交流方式，用户更希望语音助手可以知道自己想要做什么，了解周围发生的情况后，进行智能主动的推荐。

比如说电量不足时，会自动提醒附近的充电站，给出导航指引。又或者接电话时，主动关闭车窗，降低音量等。

通俗而言，就是系统知道你想要做什么，明白你需要什么，而且还没等你问就告诉你要什么，也就是从被动到主动的过程。当然，更简单的词汇就是“心有灵犀一点通”。

赛轮思针对这样的场景需求，推出CerenceProactiveAI（PAI）智能主动推荐功能，语音助理可以按场景主动向驾驶者进行智能推荐/提醒和主动通知，包括驾驶安全、路线规划、情感交互和生活便利等等。

这些与出行相关的信息，将对优化出行体验起到关键作用。例如，在不安全驾驶情况发生前提醒用户：更改驾驶模式、疲劳预警或预报极端天气，这些均有助于提升驾驶安全，并实现更加先进的语音座舱体验。

当然，这里要指出，并不是所有人都会接受这样的语音交互方式，也会有不少伙伴会觉得聒噪。比如针对导航播报，大部分车型都可以实现详细播报或简洁播报的形式，甚至直接关闭语音提醒。

同理，CerenceProactiveAI（PAI）基于语言大模型的实力，可以学习并识别用户的个人偏好，习惯及反映，并且结合数据反馈，从而让你的语音助手处在你的舒适区内。

具有主动服务能力的语音助手，是CerenceCo-PilotAI虚拟副驾驶解决方案的核心功能。

有了主动式的交流方式，自然也不需要固定的唤醒词汇，尤其是在车内多人的情况下。每人一句“Hey,XX”难免显得过于笨拙。针对这一点，赛轮思推出了CerenceJustTalk，它会识别你所说的话，并且是明确的指令或问题时，才会给到回应。

同时根据用户说话的方式以及关连对话的上下文，知道何时被召唤，从而提供一个更直观的、像真人般的交互体验。

举个例子，你可以直接说导航到东方明珠，我要去XX饭店，系统接收到明确指令后，就可以执行相应任务。

这一点当前不少车机都能做到，如蔚来，问界，哪吒等车型，均可以实现无唤醒词。但JustTalk更进一步，还能让唤醒词在语音指令不同的位置中，也能得到识别。

现阶段假设我们命名车机名称为“老默”，通常有效的指令是，你好老默，我想吃鱼了。但调整顺序或者改变唤醒词，比如“我想吃鱼，老默。”系统都很难回应识别。但在JustTalk当中，你可以说：

“老默，我想吃鱼了。”或者是“我想吃鱼了，老默。”

系统都可以给出相应指令。而这个功能，很快我们就能在奔驰的全新E级上搭载的MBUX车机系统上，得到体验。届时，AutoLab也会持续