毕业论文
您现在的位置: 语言识别 >> 语言识别资源 >> 正文 >> 正文

各大巨头瞄准人工智能语音交互,人类的双手

来源:语言识别 时间:2023/2/22
白癜风初期能治愈吗 http://m.39.net/baidianfeng/a_4302316.html

据中国之声《新闻纵横》报道,过去一年,最火的科技概念莫过于人工智能。阿尔法狗大杀四方,将人工智能的深度学习能力展露无疑。但要说跟老百姓关系最密切的人工智能技术,可能要数语音识别。从互联网问世到手机普及,人们的双手逐渐和机器绑定在一起。未来,也许人们只需要动动嘴,机器就能明白人们的意思。

11月21日,三星正式宣布其Bixby智能语音助手中文版,将于11月30日面向S8、Note8和W用户正式推送。

在中文版Bixby人工智能助手发布会上,三星对外演示了Bixby所具备的语音交互、主页聚合、视觉识别和提醒服务在内的多项功能,宣称这是一款能够实现功能全覆盖,能够带给用户与众不同的体验。

而说到语音助手,事实上,从产品推出的时间顺序来说,三星Bixby还只能算作是智能语音交互领域的一位新玩家,在Bixby之前,就已经有了诸如苹果Siri、微软Cortana、谷歌GoogleAssistant、亚马逊Alexa等在内的多款智能语音助手被业界熟知。

可以说,几乎所有科技巨头,都在为智能语音交互投入大量精力。

细究谷歌、百度和亚马逊、苹果的语音,或者是人工智能的发展路径,可以发现亚马逊和苹果依托的是智能音箱或手机,并未建立起完整的AI生态。而且,其对外开放程度,无论是在用户数量上,还是在人工智能创新平台建设和合作上,亚马逊和苹果都未及谷歌、百度程度深。这意味着,在这场AI帝国战中,搜索巨头谷歌和百度将不再只是搜索入口,经过前期长时间积累将建立一个完整全面的AI生态,不久后喷发出力量。

其实说到底,个人认为巨头们在智能语音交互领域纷纷投入大量精力,其核心还是在于,智能语音交互作为人工智能发展的核心方向之一,在即将到来的万物互联时代,其极有可能会成为下一代核心交互模式,掀起行业格局的新一轮洗牌。

事实上,自苹果在iPhone4S上推出Siri语音助手以来,智能语音交互就被业界视为是推翻触摸文字交互模式的下一代交互模式。

而业界之所以作出这种预判,其理由更多的是从交互进化角度来看的。这体现在三个方面:

一是语音交互是比文字交互更为自然和普适的一种交互模式。从人的能力习得来看,语音可以说是人类与生俱来的一种能力,而文字则是后天习得的一种能力。所以从学习成本的角度来看,可以说语音交互天然适合人类。并且从当前现实来看,也能发现在全球范围内依旧有许多不会书写文字的人。那么假设语音交互能够普及,在理想状态下,将会出现的场景是:人人都可以用语音命令操控智能设备,实现智能体验,而这将会带动智能设备新一轮的爆发潮。

二是语音交互相对于文字交互模式而言,能够做到更少的感官占用,将人的多项感官(诸如视觉、双手)从文字交互中解放出来,使得我们能够实现一心多用和在特定情况下精力集中,诸如在处于驾驶状态时,我们就可以通过语音助手来查看智能手机上的信息,从而避免视觉查看而导致的注意力不集中。

三是基于智能语音交互不需要对APP、浏览器进行点击操作,而是直接通过语音操作的特质,使其能够凌驾于浏览器、APP等其他应用入口之上,成为一个新的超级入口,而这个入口,将会变革许多产业,诸如信息搜索、分发。

而历史上每一次交互模式的革新,都将会给行业带来一次新的洗牌,在此之前已经发生的是,苹果以多点触控将此前实体按键交互基本送进了历史尘埃。

所以从这几个层面来说,业界巨头纷纷布局、占位语音交互市场的动作也就不难理解。

但目前要实现人工智能语音交互要真正推广,最少要实现以下七个层次。

1、平台层

一个平台:语音交互已经不光是一个系统,而是包括语音识别系统、AI智能识别系统、人脸识别等集合而成的一个平台;

一个语音系统:很多新兴公司在不断的涌入汽车行业,并且提供不同的系统,如何把这些平台和新的系统放到一个平台上去应用,就是我们说的“一个系统”。

多个合作系统:光有一个语音系统解决不了太多问题,它必须要有和生活相关的数据、和应用相关的数据、和工作相关的数据整合在一起,这样的语音平台才是一个真正的AI的语音平台。

2、系统层

一个输入逻辑:不同智能硬件上使用了不同的语音系统,造成了不同的语音逻辑,对于用户体验来讲非常糟糕,需要一个输入逻辑统一。

多种垂直技能训练:AI是需要训练的,比如百度云结合百度地图、百度音乐等百度各个平台的数据不断训练,这种系统层的训练对于提升AI语音就非常重要。

3、技术层

比如唤醒与自定义唤醒词、连续输入能力、快速语音输入等。

4、数据与数据训练层

数据是AI语音一个非常重要的点。只有基于大数据的训练和并发的能力,才能让语音做到更好更快。

5、AI与自然语言理解技术

包括搜索能力、用户的历史数据、闭环场景。

6、语音转写

语音转写现在也比较普遍了,就是TTS和STT。另外包括出行可以用POI。

7、一个好的语音AI必须要有迭代的能力,包括语音定制化,可以帮助车厂实现他想要的功能,很快上线。此外还有分析报表系统以及语音OTA。

语音识别还有难题要解决。人、环境和设备的不确定性,是语音识别技术的最大挑战。比如,说话的人常常来自不同的方言区、说话时有不同的方式、带着不同的情感。此外,真实的语言环境也非常复杂,会被各种各样的噪声环绕,包括汽车的喇叭声、飞机的噪声、马路上人流车流的声音等;而发言者使用的设备也是五花八门,除了自然发声,人们还会配戴各式各样的麦克风。

如何处理这些不确定性,也许决定着距离解放人们的双手还有多少时间。如果以后人类做什么都只需动嘴,人类的身体机能会退化吗?

转载请注明:http://www.0431gb208.com/sjslczl/3450.html