36氪首发将中文语音识别率提升至962

来源：语言识别时间：2023/11/27

白癜风最好的医院 https://wapyyk.39.net/bj/zhuanke/89ac7.html
计算机视觉（CV)是AI领域一大吸金赛道，也由此产生了商汤、云从、依图、旷视这样的“图像四小龙”。而这四小龙之一的「依图科技」却率先拓宽边界，踏入语音和自然语言处理（NLP)行业。12月11日，依图发布了依图短语音听写API、和微软Azure推出依图语音开放平台，并和华为发布了“智能语音联合解决方案”。其实早在年，当计算机视觉公司刚开始吸引投资人注意时，语音识别就开始规模化场景落地。现如今，百度、腾讯、京东、小米纷纷发布智能音箱，各种手机搭载语音交互，智能翻译工具、智能客服等语音类产品层出不穷。那么，相比同类产品，依图语音技术的比较优势和市场空间会在哪里？在未来产品化落地上，依图会有怎样的规划？围绕这些问题，36氪独家专访了依图科技首席创新官，前GoogleResearchScientist吕昊博士。依图科技首席创新官吕昊博士确实，这个时间点进入语音行业挑战重重，一则先发优势不再，二则市场拥挤，科大讯飞、BAT大厂纷纷入局，从技术上升到平台生态，市场空间看似余地不多。对此，吕昊表示：依图团队对国内现有的语音识别技术都做了调研，发现在不少场景下，语音识别效果并不理想，例如通话过程中的声音转写准确率低、远距离的声音采集识别效果差、语料数据积累不足等。因此，依图会从这些可优化空间入手，对模型算法进行打磨，提升识别率，降低字错率。在语音识别领域，15%的字错率是一条红线，超过则基本不具备可读性，而低于3%则是可以被认为具备类人的语音识别能力。然而，在实际说话过程中，人的语速、语气、口音、语态等都会影响识别准确度。此外，不同于英文，中文复杂的语言元素，以及同音不同意等问题为语音识别带来了更大的挑战。那么依图如何应对呢？吕昊告诉36氪：当前业内缺乏系统性的标准测试和测试集，对于语音识别缺乏体验和比较的工具，为提升识别准确率，依图团队搜集了大量真实对话数据，以及专业类、生活类的细分语料库，基于此，依图提出了自己多维度、多场景的测试数据集，由此来对模型算法进行训练和测试。据悉，在基于全球最大中文开源数据库的AISHELL-2的测试中，依图短语音听写的字错率为3.71%，官方称领先原业内领先者科大讯飞约20%。在若干近场、混响、噪声等公开测试集上，依图平均字错率6.39%，领先讯飞11%。加入电话、口音、语音节目、远场演讲等依图内部暂无法公开的测试集后（全部测试集共50小时、60万汉字），依图平均字错率8.27%，讯飞是9.30%，依图仍然领先讯飞11%左右。基于不同数据测试集上，依图语音识别技术的准确率表现其实，如果想实现真正意义上的语音交互，语音只是一部分，更重要的则是对语义的理解。如果我们把语音技术比作人的嘴巴和耳朵，用于表达和获取；那么语义理解则是人的大脑，能够帮助信息处理和解析。在语义理解方面，依图同样在进行技术积累。吕昊表示：虽然此次是从语音切入，但是团队一直是语音、语义两线并行。年时，依图就曾将自然语言处理（NLP)技术用于AI+医疗解决方案，结合自建的临床中文知识图谱，对医学文本等多模态数据进行解析和信息提取。今年，依图的论文更入选NLP顶会EMNLP，针对计算机语言学核心问题之一的指代理解提出全新数据集PreCo并对外开放。此前，在视觉领域，依图已经在安防、医疗、金融、零售等领域有了产品化、商业化积累。对于是否会将语音技术迁移于这些领域，吕昊回应：这一阶段仍旧以技术积累为主，依图在开放平台上提供了自有的API和模型算法，一方面可以经由市场验证算法质量，另一方面可以由此接近不同行业和场景。据官方信息，依图与微软联合发布的语音开放平台基于AzureCloud，将依图的语音识别技术能力开放给广泛第三方应用开发者使用。依图和华为联合发布的“智能语音联合解决方案”则依托于依图语音开放平台及华为全栈全场景Ascend系列芯片和面向数据中心侧的AtlasAI加速卡，形成软硬一体化解决方案。在未来，依图计划陆续开放长语音转写API、实时语音转写API等。正如吕昊所说：希望为第三方应用开发者在语音领域提供多一个语音技术选择。笔者认为：结合自有的CV技术积累，依图或许可在多模态情感识别和计算领域发力，融合视觉、语音等多重数据，全方位提升机器的感知能力。在商业化层面，虽然当下的依图语音技术开放平台仍旧以技术积累为重心，但依托CV积累的的B端用户，为企业级客户提供语音解决方案只是时间早晚问题。————我是郑铟，36氪超人学院创始学员，

转载请注明：http://www.0431gb208.com/sjszlfa/6513.html

上一篇文章： 2022年中国人工智能语音语言技术发展历

下一篇文章：有没有截图识别文字的软件分享三个好用的软