语音识别如今已经走过了漫长的道路。年底,Google智能助理已经支持使用30多种语言。高通公司也已经开发了可以识别单词和短语的设备模型,准确率达到95%。微软的呼叫中心解决方案能够比人类团队更准确地转录对话。
尽管通过机器学习实现了技术上的突飞猛进,如今的语音识别系统仍然有许多不完美的地方,其中一点就是带有歧视性。在最近《华盛顿邮报》委托进行的一项研究中,谷歌和亚马逊生产的智能音箱,它能够听懂非美国口音的可能性比本土用户低30%。
埃森哲全球AI负责人RummanChowdhury在接受VentureBeat采访时表示:“数据是混乱的,因为数据反映了人,而这就是算法最擅长的:从人类行为中寻找模式。”这被称为算法偏差:机器学习模型在数据或设计中反映偏见的程度。微软和IBM、埃森哲、Facebook等行业领导企业已经开发出自动化工具来检测和减轻AI算法中的偏见。
解决口音差异
Speechmetrics是一家专门研究企业语音识别软件的剑桥科技公司,12年前开始实施一项计划,旨在开发比市场上任何产品更准确,更全面的语言包。它的根源在于统计语言建模和循环神经网络,这是一种可以处理内存输出序列的机器学习模型。年,它朝着自己的愿景迈出了一小步,建立了一个用来衡量统计语言建模方面进展的10亿字语料库。年,它又迈向了另一个里程碑:与卡塔尔计算研究所(QCRI)合作开发阿拉伯语语音到文本服务。
今年7月。这个被称为“全球英语”的语言包是来自40多个国家数千小时的语音数据和“数百亿”单词的结果。它支持所有主要英语口音的语音到文本的转录,它是建立在“言语自动化语言学”的背后,这是一个人工智能的框架,通过利用已知语言中识别的模式来学习新语言的语言基础。在测试中,全球英语的表现优于谷歌云语音API和IBM云中的英语语言包。Thungen称,在高端市场,它的准确率在23%到55%之间。
Speechmatics并不是唯一一家声称缩小口音差异的公司。总部位于马萨诸塞州伯灵顿的Nuance表示,该公司采用多种方法确保其语音识别模型能够同样理解其产品支持的大约80种语言。在它的英国语音模型中,它从20个特定的方言区域中挑选出特定的词汇以及他们的发音。最终的语言包能识别52种。但它更进一步的是,Nuance定制的语音文本转换软件Dragon的新版本采用了一种机器学习模型,可以根据用户的口音在几种不同的方言模型之间自动切换。与没有模型切换神经网络的老版本软件相比,西班牙语口音的英语使用者的表现要好22.5%,美国南部方言的表现好16.5%,东南亚英语使用者的表现好17.4%。
数据越多越好
语音识别中的口音差异是一个数据问题。语料库中语音样本的数量和多样性越高,得到的模型就越精确。
亚马逊的一位发言人告诉《华盛顿邮报》,随着越来越多的用户使用不同口音说话,Alexa的语音识别能力在不断提高。谷歌在一份声明中承诺,“在我们扩展数据集的同时,将继续改善谷歌助手的语音识别能力。”
根据市场研究公司Canalys的数据,随着越来越多的人开始使用语音识别系统,语音识别系统将在某种程度上得到改善,到年全球将销售近1亿智能音箱,到年,大约55%的美国家庭将拥有一个。
转载请注明:http://www.0431gb208.com/sjsbszl/2353.html