让机器听得懂你的口音,解决语音识别最大难

来源：语言识别时间：2023/10/28

语音识别对于AI人工智能来说意义重大，语音识别的准确度直接决定着人与机器交互的有效性，话句话说直接决定着AI技术应用的成败。目前全球高科技企业都在语音识别的准确性、速度上投入大量的人力、物力，都期望能站在下一代工业革命（人工智能）的制高点上，赢在起跑线上。不可否认，凭借大数据、云存储，很多公司在语音识别技术取得了巨大的成绩，像国内语音智能领头羊科大讯飞，在标准普通话前提下，语音识别准确率可以达到95%，能够识别35种语言，进行实时翻译。国外，谷歌Googleassistant也将支持超过30种语言，高通开发的新设备对单词、短语的识别准确度也高达95%，微软的智能语音客服取得了比人工客服更高效的服务。但是以上案例都是在“标准普通话”、“标准英语”的基础上进行的，而现实中AI语音识别最大的难题是口音，如果要问中国有多少方言，或许大家还能大概的说出一些，但是要是问中国有多少口音，我想大家应该都是比较蒙的状态，毕竟每个人的口音多少都会有些差异的，更别说机器了，让机器听得懂每个人的讲话，这想法大概是疯了吧，机器肯定会崩溃的！但是人工智能还是在非常迅速的发展的，问题最终还是要解决的，那么究竟有没有一种办法让机器能听得懂每个人的讲话，能够让机器真的能跟每个人对话呢，或许答案是肯定的！目前，不管是国内还是国外,语音识别的基础都是语料库，通过语料库数以百亿计的数据资源提高语音识别的准确性，科技巨头亚马逊和谷歌甚至创建游戏，鼓励用户使用不同地区的方言进行交流，以获得更庞大的语料库资源，但是可以想象效果并不尽如人意。但是值得庆幸的是，苹果公司申请的一项新专利，给人工智能领域在上述问题（口语识别）的研究上指出了新的方向——智能设备多用户支持。苹果智能语音助手siri将来能够分辨出不同用户的声音，并根据不同用户的声音提供不同的响应。当然这只是一个相对简单的应用场景，甚至目前亚马逊的智能音箱Alexa已经初步具备了这样的功能。但是我们不妨扩展性的设想一下：将AI语音识别分为两个不同的场景，在通用领域，比方说大型国际会议的实时翻译，因为这种场景下用到的多是标准的语言，好比是“普通话”，那么基于现有语料库研究方向进行深度研究是可行的；而在个性化领域，我们可以在大数据基础上，赋予智能设备“多用户支持”的能力，用户通过一段时间与机器的交流、学习，让机器能“听得懂”用户的个人口音，成为用户的私人朋友！如果AI语音识别中的口语识别问题能够解决，那么以家庭为单位的智能家居、自动驾驶等人工智能走进人类日常生活的时代将真正到来了！

转载请注明：http://www.0431gb208.com/sjsbszl/6119.html

上一篇文章：人工智能之自然语言处理初探人人都是产品

下一篇文章： 28种语言互译语音翻译扫描翻译百度输