解密依图如何一年实现语音识别指标超巨头玩

来源：语言识别时间：2024/10/2

北京白癜风专科哪里最好 http://finance.sina.com.cn/chanjing/b/20090930/09073071708.shtml
机器之心原创作者：四月年底，尽管资本寒冬的声音不绝于耳，但勇者往往无畏。在第四波AI浪潮下快速成长起的「小巨头」并没有停下开疆拓土的脚步。人脸、语音等多模态生物识别技术的融合成为人工智能应用的发展趋势之一。12月11日，擅长计算机视觉技术解决方案的依图科技在北京公开展示了语音识别领域的最新技术成果，并表示将在近期开放依图语音识别API接口以及部分测试数据集。同时，依图科技还宣布，将基于其语音识别技术与微软Azure、华为推出联合方案平台。01最优测试结果如何保证客观性？活动现场，依图首先展示了其语音识别小程序「听写大会」在歌词识别、飞机机舱混响环境下的播报识别结果，以及依图语音识别API在公开数据集、依图自有数据集、非公开数据集三类数据集上的平均错字率（CER）表现。测试结果均以横向对比的形式体现，横向对比的其他主流方案包括讯飞听见、讯飞开放平台、云知声开放平台、阿里一句话、腾讯AI平台、百度语音-远场、百度语音-输入法、百度语音-搜索。数据集是测试结果公正性的重要依据，为体现数据集的科学性和多样性。依图测试过程中涉及到的公开测试数据集包括：全球最大中文普通话数据库AISHELL1、AISHELL2（采用iOS系统，Android、Mic性能类似，省略）、中文语音语料THCHS30、PrimeWord、ST-CMDS；依图自有数据集包括安静对话、混响数据集；非公开数据集，即向第三方购买的数据集，包括语音助手场景、电话闲聊、电话客服、远场演讲、口音等场景的数据。依图科学家吴双博士表示，该批测试完成于年11月底，数据覆盖了近60万字、50小时的语料，近场/远场跨度在20cm-10m，涵盖智能音箱、手机等多种设备，科技、医疗等超过20类话题领域。在上述提到的所有测试数据集和测试场景中，依图语音的平均字错率表现均优于科大讯飞、百度等横向对比的主流语音方案商的开放平台方案。字错率是中文语音识别领域的关键性评估指标，一般认为字错率在低于3%时不会影响可读性，而超过15%则毫无可读性。这两个数据被视为是语音识别的两条红线。在不同场景下，不同算法的表现可能存在很大差异。活动现场，横向对比测试结果依次呈现在大屏幕上，引来在场诸多人士拍照。这在一定程度上展示了依图在特定测试条件下的技术领先性，同时也反映出业界所谓的「成熟」中文语音识别方案还存在诸多提升和改进空间。比如，在公开数据集AISHELL-2中，依图短语音听写的字错率为3.71%，领先原业内领军者约20%。在手机进场（接近可用）场景下，依图语音的字错率为3.6%，排名第二云知声开放平台字错率为4.2%，依图语音领先云知声开放平台近17%。比如，在非公开数据集的电话场景中第一类「电话闲聊」场景下，只有依图语音和讯飞听见（异步模型）在稍微接近15%字错率的下限，即「勉强可用」。而排名靠后的阿里云智能语音、云知声开放平台、腾讯AI开放平台-WeChat、讯飞开放平台、百度开放平台远场方案在电话闲聊、电话客服场景下均超过了15%字错率，即「毫无可读性」。在远场演讲场景下，除依图语音和讯飞听见（异步模型）的平均字错率达到可用容错范围外，阿里云智能语音、云知声开放平台、

转载请注明：http://www.0431gb208.com/sjszlfa/7685.html

上一篇文章：语音识别转文字怎么转推荐你试试这两个转换

下一篇文章：没有了