语音识别对于AI人工智能来说意义重大,语音识别的准确度直接决定着人与机器交互的有效性,话句话说直接决定着AI技术应用的成败。目前全球高科技企业都在语音识别的准确性、速度上投入大量的人力、物力,都期望能站在下一代工业革命(人工智能)的制高点上,赢在起跑线上。不可否认,凭借大数据、云存储,很多公司在语音识别技术取得了巨大的成绩,像国内语音智能领头羊科大讯飞,在标准普通话前提下,语音识别准确率可以达到95%,能够识别35种语言,进行实时翻译。国外,谷歌Googleassistant也将支持超过30种语言,高通开发的新设备对单词、短语的识别准确度也高达95%,微软的智能语音客服取得了比人工客服更高效的服务。但是以上案例都是在“标准普通话”、“标准英语”的基础上进行的,而现实中AI语音识别最大的难题是口音,如果要问中国有多少方言,或许大家还能大概的说出一些,但是要是问中国有多少口音,我想大家应该都是比较蒙的状态,毕竟每个人的口音多少都会有些差异的,更别说机器了,让机器听得懂每个人的讲话,这想法大概是疯了吧,机器肯定会崩溃的!但是人工智能还是在非常迅速的发展的,问题最终还是要解决的,那么究竟有没有一种办法让机器能听得懂每个人的讲话,能够让机器真的能跟每个人对话呢,或许答案是肯定的!目前,不管是国内还是国外,语音识别的基础都是语料库,通过语料库数以百亿计的数据资源提高语音识别的准确性,科技巨头亚马逊和谷歌甚至创建游戏,鼓励用户使用不同地区的方言进行交流,以获得更庞大的语料库资源,但是可以想象效果并不尽如人意。但是值得庆幸的是,苹果公司申请的一项新专利,给人工智能领域在上述问题(口语识别)的研究上指出了新的方向——智能设备多用户支持。苹果智能语音助手siri将来能够分辨出不同用户的声音,并根据不同用户的声音提供不同的响应。当然这只是一个相对简单的应用场景,甚至目前亚马逊的智能音箱Alexa已经初步具备了这样的功能。但是我们不妨扩展性的设想一下:将AI语音识别分为两个不同的场景,在通用领域,比方说大型国际会议的实时翻译,因为这种场景下用到的多是标准的语言,好比是“普通话”,那么基于现有语料库研究方向进行深度研究是可行的;而在个性化领域,我们可以在大数据基础上,赋予智能设备“多用户支持”的能力,用户通过一段时间与机器的交流、学习,让机器能“听得懂”用户的个人口音,成为用户的私人朋友!如果AI语音识别中的口语识别问题能够解决,那么以家庭为单位的智能家居、自动驾驶等人工智能走进人类日常生活的时代将真正到来了!
转载请注明:http://www.0431gb208.com/sjszyzl/6231.html