毕业论文
您现在的位置: 语言识别 >> 语言识别介绍 >> 正文 >> 正文

语音识别首次全平台比拼,讯飞依图BAT各

来源:语言识别 时间:2022/6/10
北京治白癜风症最好的医院 https://wapyyk.39.net/bj/zhuanke/89ac7.html

来源

投中网

年,微软公司的邓力和其团队与多伦多大学的Hinton教授合作,首次将深度学习引入语音识别,率先取得突破,驱动了语音识别技术的高速成长。到今天短短8年时间,便取得了远超过去半个世纪的成就。

今天,语音识别技术已大量落地,从语音输入法等应用,到智能音箱、智能机器人等智能硬件大量涌现。特别是在中文语音市场,玩家众多,市场也已略显拥挤。而不少行业巨头都纷纷更是表示语音识别准确率已从97%进化到98%,似乎在技术层面,语音识别已经趋于完美。但是,事实是否真的如此呢?

近日,依图科技“突袭”中文语音识别,公布了在这一领域的成绩。在使用AISHELL-2数据库进行测试的结果显示,依图的准确率全面领先。这不禁让人思考,中文语音识别目前到底是什么状态,还有多大空间?

公开测试显示,中文语音识别算法良莠不齐,算法能力远未超越人类。

到目前为止,虽然整个行业都在宣传语音识别的字错率或词错率距离%只差2~3个百分点,但是否意味着已经达到真正好用的程度,以及当前到底发展到了什么样的地步,很多人并没有一个清晰的认知。

无论是博鳌亚洲论坛AI同传词汇翻译不准确、重复等低级错误,还是平昌奥运会挪威队主厨使用谷歌翻译订鸡蛋事故,以及前不久小米AI+IoT开发者大会上小爱同学的现场翻车,语音识别正被越来越多人引为笑谈。这些事例,似乎可以看作是当前语音识别技术现状的一个缩影,同时也可以看到,语音识别这个最容易考试的技术,距完美还相差甚远。

有一个事实可以说明问题,最近几年,计算机视觉领域的人工智能新创公司不断涌现,其中不少已成长为独角兽。但是,语音识别领域的独角兽却少之又少。其中的原因有多个方面。从表层来看,语音识别的数据成本高、投入大,相关研究人员稀少。而更核心的是来自技术层面,包括语音模型对多应用场景的泛化能力不足,以及结合上下文语义的推理能力不足等等。

这些尚未突破的技术壁垒,或许可以解读为上述案例所体现出来的问题。当前理想的语音识别,几乎都是在近场、安静等受限场景下实现的,但真实的语音交流的复杂度远不止于此。受限的应用场景,会显著影响更大规模的落地应用。这导致语音识别商业变现的速度远远不及视觉领域,自然无法在短时间内发展出独角兽公司。

事实上,即便是大公司,也面临过类似的问题。IBM曾放弃了研究多年的ViaVoice语音系统,就是因为难以找到好的盈利模式。当前语音行业的巨头,也大多无法单纯依靠“卖技术”来构建自己的商业模式。

技术需要突破,但推动行业的进步,更需要统一公认的衡量标准。当前业内对于中文语音,目前并没有一个公认的测试基准,各家各执一词,甚至不公布测试基准,导致行业乱象。可以说,中文语音识别,仍有很长一段路要走。

依图首席创新官吕昊博士解读行业现状

进入语音是必然

依图或开启AI应用新方向

语音是更自然的人与人的交互方式,也是人机交互最重要的入口。如果说视觉是人获取信息的主要渠道,那么语音则是人输出信息的主要渠道。可以说,语音识别是AI理解世界最重要的组成部分。因此,对于AI公司来说,要实现真正全面的智能,进入智能语音领域,是一个必然。

因此,做视觉技术的企业,在深化业务落地时,就会发现,视觉+语音这种复合型的AI技术需求,会大于单一型AI技术需求。所以,有些视觉企业选择了与语音企业合作,依图则选择了自主研发这条道路。而此次依图首次公布语音识别领域的背后成果,或许会掀起更多视觉企业对语音识别的

转载请注明:http://www.0431gb208.com/sjszlfa/528.html