毕业论文
您现在的位置: 语言识别 >> 语言识别市场 >> 正文 >> 正文

语音交互大模型,更拟人的车机交互何时出

来源:语言识别 时间:2024/9/19

在FF.0的发布会上,我们看到了这样一段语音交互。

“帮我在Malibu找一家有户外座位且评价至少4星的意大利餐厅,不要披萨店。”这段语音中包含了5个具体的指令和明确的筛选项,且没有唤醒词,系统随后也给出了对应选项。

不论真假,出于好奇,AutoLab在发布会第二天,以相同的条件随机测试部分造车新势力车型的语音交互能力,结果均未能完成。

除此之外,视频的重点在于指令更加符合人与人之间的交流逻辑,这也意味着它足够拟人。而实现这套拟人化语音助手背后的推手,就是赛轮思。

行业数据显示,年中国国内车载语音市场集中度相当之高,仅赛轮思和科大讯飞两家,占比已经超过70%。科大讯飞大家都很熟悉了,在国内合作的主机厂也很多。

而另外一家赛轮思,想必绝大部分观众都未曾听说,其实苹果的“Siri”就是由赛轮思和苹果共同开发的产品。除此之外,赛轮思的服务对象除了国内外的主机厂商和Tier1之外,还包含了像英伟达,苹果这类的科技巨头。

如何看待语音交互未来发展方向,赛轮思又如何应对接下来行业挑战。AutoLab借赛轮思首席执行官StefanOrtmanns博士这次来中国,在采访中得到了一些答案。

当前语音交互最大的应用场景是基于用户给出的需求,系统做出对应的指令。也就是一问一答,通过还要伴随着固定的唤醒词汇。此前,在理想家庭科技日上,我们看到了大模型运用在语音交互端的实力,可以出口成章,制定旅行计划,更清晰的理解词义。

但随着我们看到大模型的泛化能力和AI技术的不断提升,用户对于语音交互的要求也会更高。除了更拟人的交流方式,用户更希望语音助手可以知道自己想要做什么,了解周围发生的情况后,进行智能主动的推荐。

比如说电量不足时,会自动提醒附近的充电站,给出导航指引。又或者接电话时,主动关闭车窗,降低音量等。

通俗而言,就是系统知道你想要做什么,明白你需要什么,而且还没等你问就告诉你要什么,也就是从被动到主动的过程。当然,更简单的词汇就是“心有灵犀一点通”。

赛轮思针对这样的场景需求,推出CerenceProactiveAI(PAI)智能主动推荐功能,语音助理可以按场景主动向驾驶者进行智能推荐/提醒和主动通知,包括驾驶安全、路线规划、情感交互和生活便利等等。

这些与出行相关的信息,将对优化出行体验起到关键作用。例如,在不安全驾驶情况发生前提醒用户:更改驾驶模式、疲劳预警或预报极端天气,这些均有助于提升驾驶安全,并实现更加先进的语音座舱体验。

当然,这里要指出,并不是所有人都会接受这样的语音交互方式,也会有不少伙伴会觉得聒噪。比如针对导航播报,大部分车型都可以实现详细播报或简洁播报的形式,甚至直接关闭语音提醒。

同理,CerenceProactiveAI(PAI)基于语言大模型的实力,可以学习并识别用户的个人偏好,习惯及反映,并且结合数据反馈,从而让你的语音助手处在你的舒适区内。

具有主动服务能力的语音助手,是CerenceCo-PilotAI虚拟副驾驶解决方案的核心功能。

有了主动式的交流方式,自然也不需要固定的唤醒词汇,尤其是在车内多人的情况下。每人一句“Hey,XX”难免显得过于笨拙。针对这一点,赛轮思推出了CerenceJustTalk,它会识别你所说的话,并且是明确的指令或问题时,才会给到回应。

同时根据用户说话的方式以及关连对话的上下文,知道何时被召唤,从而提供一个更直观的、像真人般的交互体验。

举个例子,你可以直接说导航到东方明珠,我要去XX饭店,系统接收到明确指令后,就可以执行相应任务。

这一点当前不少车机都能做到,如蔚来,问界,哪吒等车型,均可以实现无唤醒词。但JustTalk更进一步,还能让唤醒词在语音指令不同的位置中,也能得到识别。

现阶段假设我们命名车机名称为“老默”,通常有效的指令是,你好老默,我想吃鱼了。但调整顺序或者改变唤醒词,比如“我想吃鱼,老默。”系统都很难回应识别。但在JustTalk当中,你可以说:

“老默,我想吃鱼了。”或者是“我想吃鱼了,老默。”

系统都可以给出相应指令。而这个功能,很快我们就能在奔驰的全新E级上搭载的MBUX车机系统上,得到体验。届时,AutoLab也会持续

转载请注明:http://www.0431gb208.com/sjszlff/7608.html