毕业论文
您现在的位置: 语言识别 >> 语言识别优势 >> 正文 >> 正文

语音识别机器视觉,让汽车听得见看得着,

来源:语言识别 时间:2022/5/11
科大讯飞是个喜欢“拖堂”的公司,四个多小时的发布会,他们有太多东西想要跟人们分享。顶天立地,让万物智能的雄心当然也需要更多的时间来阐释。汽车虽然重要,但对于科大讯飞而言只是一个门类。

文丨AutoR智驾吴鹏飞

“今年以来我们的终端数已经从去年的9亿增加到15亿,每天的交互次数已经达到40亿。第三方创业团队在过去一年中从23万增加到了46万,围绕科大讯飞的人工智能平台做各种创新应用。”

科大讯飞董事长刘庆峰激动地介绍了年以来科大讯飞人工智能技术的一系列突破。

他认为,未来的人工智能应是典型的赋能型技术,就像是水与电一样,科大讯飞将人工智能开放出来,给更多在不同专长领域的开发者使用,提供更专属于某一群人的人工智能应用服务。

医疗、司法、教育;AI赋能玩具、家电、汽车、手机、翻译…随着人工智能技术的发展,以语音起家的科大讯飞正将人工智能的触角伸向各个领域。

科大讯飞智能汽车事业部总经理刘俊峰认为汽车是语音技术应用最深的场景,刘俊峰笑着称:“我们在车企眼里虽然算不上Tier1,但至少是Tier0.5。”

这两年,科大讯飞收获了很多车企和供应商伙伴。“两百款车型,近一千万辆前装了科大讯飞飞鱼1.0系统的量产车已经奔跑在马路上。”目前与科大讯飞结盟的车企伙伴近三十家。

今天在科大讯飞的年度发布会上飞鱼2.0系统作为拳头产品之一正式发布。据介绍,内置飞鱼助手的汽车,可以跟手机配对,让用户一边开车一边用语音操控打电话、开导航、听音乐、查路线。

刘俊峰称之为面向未来的汽车交互系统,为了让它做到“懂我更懂车更互联”,相较1.0版本,讯飞在新版本中加入了诸多语音交互的新元素:阵列降噪全双工交互、oneshot识别交互、基于规则理解的问答系统、多语种合成。

语音车机交互的痛点在哪?唤醒、干扰以及上下文的语义理解。而这些新元素的出现就是为了解决这些痛点。

通过现场工作人员在一台搭载了飞鱼2.0的长安CS95车型上的演示,AutoR智驾君发现,这套系统在标准普通话下的识别率几乎接近百分之百,并且能够理解用户的上下文语义给出即时反馈。

比如先问“今天北京天气怎么样?”接下问“那上海呢?”系统都能正确理解,用户还可与该系统进行多轮对话完成一系列连贯操作,在此期间,不需要多次唤醒系统,人机对话的逻辑跟人与人对话无异,官方宣称其上下文理解正确率能达到94%。

为了解决干扰,飞鱼2.0系统引入了所谓窄波束30°的技术,通过麦克风阵列,系统能够自动识别音源,主驾驶员对车机的语音控制并不会被副驾干扰。副驾用户只需通过固定口令唤醒系统给予自己授权,这套系统真正做到了“指哪听哪”。

解决了用户体验上的痛点,接下来是为服务内容下功夫。早与高德结盟的科大讯飞决心再从语音的角度让人工智能和地图导航深度融合,语音不再是简简单单地实现地图为用户导航单纯的这一功能,而是让地图更智能。在导航途中,用户可通过语音向地图询问“前方怎么走,有多少个红绿灯?”等问答操作。

地图串联的则是衣食住行,可通过语音提供服务的场景会越来越多,这也赋予飞鱼系统在内容挖掘上的无限可能。目前为止,在汽车使用场景下与科大讯飞联手的CP/SP合作及运营商伙伴同样也达到了近三十家。

同时,飞鱼2.0还可以为用户推荐歌曲,提供听电台识曲等功能,更加人性化,赋予机器情感再反馈给车主,做到“懂你”。

而背后这些庞大的数据都会汇集到云端的飞鱼数据工场进行再挖掘、再治理、再优化,让数据发挥更多价值。

大会中,Cityscapes的一张图吸引了诸多目光,Cityscapes是奔驰发起的一项图像识别的比赛,今年十月,讯飞以0.1分的优势在此测试中战胜了巨头Google,从四十多家参赛者中脱颖而出。

从能听会说到察言观色,讯飞希望把汽车的感知能力从车内拓展到了车外。通过机器视觉弥补车载影像的盲区让每一个人成为老司机,拿停车为例,无论是有无停车线,自动泊车功能结合机器视觉都能让车安然停入车位,这是大部分传统自动泊车功能无法做到的。

在今天,汽车的机器视觉很容易跟自动驾驶联想到一起,不过科大讯飞智能汽车业务副总谢信珍在接受采访中表示:“科大讯飞的机器视觉目前只是作为一种增强ADAS,属于L0级别的辅助驾驶(应为L1级别——AutoR智驾注),距离L4、L5自动驾驶还很远。”

语音识别走到图像识别看似跨界,但两者却又有千丝万缕的关系。从技术的角度而言,语音处理的细腻程度比图像要求更高,在医疗图像耕耘多年的科大讯飞在深度学习的技术储备上有着深厚的积累,这让讯飞在汽车图像识别技术上走得更容易。

在人为失误导致交通事故日益增多的今天,车机语音交互日渐成为刚需。走在语音技术前列的科大讯飞早已不再追求98%识别率顶端的那2%,而是把重心放在了方言的识别以及内容的服务上,讯飞的愿景是打造一套用户一张嘴就知道他想要什么,随之提供相应的服务。这可以说是语音识别的终极形态,在此之前,科大讯飞这些公司还有很长的路要走。

科技视角、极客精神《AutoR智驾》为新汽车而生e

转载请注明:http://www.0431gb208.com/sjszjzl/246.html

  • 上一篇文章:
  • 下一篇文章: 没有了