自从半个世纪前,语音识别诞生以来,一直处于无人问津的状态,直到深度学习出现成为语音识别的救星,提高了识别度与精度,虽然仍无法消除噪音和环境对语音识别的影响,但在大多数场景都可以提供便利高效的沟通。
语音识别,英文名为AutomaticSpeechRecognition,通常称为ASR,作用于人类的语音中,将人类的语音转为可理解的文案内容。我们的siri和小爱同学都是这个范畴,称为语音转文本识别。当然还有语音合成也属于语音识别。
现在人工智能技术的进步,语音识别从只能识别简单的几个字到能在带有口音、方言、噪音的情况下可用,特别是智能音箱席卷全球,语音识别一跃成为全球电子消费领域最成功的应用。
语音识别未来的挑战
(1)回声消除技术
即使基于现如今的语音技术也无法消除回声对喇叭的影响,因为喇叭非线性失真是确实存在,若是单纯以信号处理也是无法将回声消除。能否利用深度学习去筛选各频带上的增益,同时结合信号处理技术是一个不错的想法。
(2)噪声下的语音识别技术
因为信号处理是不擅长处理非线性问题,而深度学习擅长,实际上噪音的处理要依靠非线性与线性结合,因此这个技术的突破也需要两方技术的完美融合才能实现
(3)方言或口音识别
方言识别若有一个比较好的普通话声学模型,如何利用少量的方言数据得到一个好的方言声学模型,如果做到这点将极大扩展语音识别的应用范畴。这方面已经取得了一些进展,但更多的是一些训练技巧,距离终极目标还有一定差距。
(4)让人工智能听懂人类语言
语音识别的目的是让人工智能可以理解人类,因此转换成文字并不是最终的目的。如何将语音识别和语义理解结合起来可能是未来更为重要的一个方向。让人工智能听懂人类语言,仅靠声音信息还不够,“声光电热力磁”这些物理传感手段,这样机器才能感知整个真实世界,这是机器能够学习人类知识的前提条件。
语音识别的总结
现如今语音识别虽不能解决任何场景和任何人群,但已经能够在真实场景进行落地,相信落地的场景越多,得到学习的数据就越多,就能帮助语音识别更进一步。既满足了产业需求也解决了实际落地,
这也是语音技术相对于其他AI技术的长处。不过如何将语音识别带到更高的维度,让人工智能真正听懂人类的语言,还需要漫长的磨合。
泽恩科技是一家智能设备+大数据的技术公司,我们所有的技术都可定制,技术不能决定需求,一切由你来定。欢迎
转载请注明:http://www.0431gb208.com/sjszyzl/1603.html