点击图片查看详情↑
年已经接近尾声,寒冬之下,中国的AI初创公司仍在扩张边界。
12月11日,中国计算机视觉领域“四小龙”之一的依图正式进军语音识别领域,宣布与微软合作推出依图开放平台,开放平台将提供依图开发的语音识别算法API,以及大量的数据集。
另外,依图也宣布和华为合作发布智能语音联合解决方案,该方案基于依图语音开放平台及华为全栈全场景昇腾(Ascend)系列芯片和面向数据中心侧的AtlasAI加速卡,结合双方的技术研发能力与生态服务能力深度,形成软硬件一体化的联合解决方案。
图丨依图首席创新官吕昊博士(来源:依图)
伴随着两款产品的发布,依图还在现场展示了其中文语音识别算法的一系列进展:在业内近期公开的AISHELL-2的三个测试子集,以及来自第三方的近场口音测试集、近场安静聊天测试集、语音节目测试集、电话测试集、远场测试集中,依图表现突出,且字错率几乎全部在15%以下,同样表现突出的还有科大讯飞。其中,在AISHELL2-A-EVAL数据集中,依图的识别准确率高达96.29%,字错率(CER)仅为3.71%,同样领先一些业内领军者。
AISHELL-2是AISHELLFoundation和希尔贝壳宣布的开源数据库,数据规模达小时,是目前全球最大的中文开源数据库。它由名来自中国不同口音区域的发言人参与录制,经过专业语音校对人员转写标注,通过了严格质量检验,数据库文本正确率在96%以上,录音文本涉及唤醒词、语音控制词、智能家居、无人驾驶、工业生产等12个领域。
(来源:依图)
特别的是,针对不同的场景,依图采用了同一种语音识别算法,即单个算法模型表现了多场景适用性。这种方法与目前市面上针对限定场景开发不同识别算法的技术路线有很大不同。
依图科技首席创新官吕昊总结了人脸识别领域的从实验室走向落地的发展脉络,他认为,大量的测试和努力能够打破非常多限制的条件,因此技术落地越来越多,“因为大家变得透明,且竞争比较多之后,整个行业也在往前走。我们也希望语音识别这个行业通过这样一些活动,通过我们的努力,通过一些严谨的测试把这些打通整个行业。”
吕昊所提到的测试,具体体现通过自身开放平台面世后让技术经受更大范围的检验,也体现在依图推出的一款特殊的小程序“听写大会”上。据介绍,这款
转载请注明:http://www.0431gb208.com/sjszlfa/255.html