今天我们聊一聊语音识别的难点

来源：语言识别时间：2022/5/7

语音识别的研究历史其实非常悠久，然而这一领域的飞速发展主要集中在最近几十年。那么为什么语音识别这么困难呢？

其实语音识别对于人类本身而言也并非那么简单。看看我们的日常生活，是不是我们自己也时不时会碰到听不懂别人在说什么的情况呢？

最显而易见的原因之一就是语言因素。《圣经·旧约·创世纪》中巴别塔的故事，就是试图解释世界上出现的不同语言和种族。此外，同一语言下还会有不同的方言，我国就素有“十里不同音，百里不同俗”的说法，在东南地区尤其如此。

假设我们再限定只说普通话呢？还会碰到个人的口音问题。播音员、主持人这样字正腔圆的发音大家都能听懂，但是也许周围朋友说的话我们就不太能听懂。再者也许说话者声音太高或太低？说话太快或太慢？有谐音字？更不能忘了我们经常还会处在嘈杂的环境中，环境噪音完全可能使得你的同伴像是在表演哑剧。

这许许多多的变量使得同一句文字会产生太多各种各样的变化。人脑为什么能够处理这样的语音变异性是神经科学所要研究的课题。那计算机要如何做到语音识别呢？

历史上出现过两类解决方案。其一是用LinguisticKnowledge的方式，构建各种语言的语音规则，从而试图覆盖所有可能的语音。这种方法起源于早期构建人工智能专家系统（ExpertSystem）成功后的启发。然而这种方式的缺陷现在看来也非常明显：我们没有办法举出所有可能的语音规则。

第二种方式则是统计语音识别（StatisticalSpeechRecognition)，构建可以从数据中学习的语音模型（Data-drivenmachinelearningspeechmodels)。机器学习的解决途径经检验后被证明是成功有效的实现高正确率语音识别的方法。

预览时标签不可点收录于话题#个上一篇下一篇