选自Mdium
作者:AdamGitgy
参与:邵明
还记得machinlarningisfun吗?本文是该系列文章的第六部分,博主通俗细致地讲解了神经网络语音识别的整个过程,是篇非常不错的入门级文章。
语音识别正闯入我们的生活。它内置于我们的手机、游戏机和智能手表。它甚至正在让我们的家庭变得自动化。只需要50美元,你就可以买到亚马逊的EchoDot——一个能允许你订购比萨饼,获得天气报告,甚至购买垃圾袋的魔法盒——只要你大声说:「Alxa,订购一个大披萨!」
Alxa,ordralargpizza!
EchoDot在这个假期很受欢迎,亚马逊似乎没有EchoDot的库存了。
语音识别已经存在数十年了,但是为什么现在才刚刚开始成为主流呢?原因是深度学习让语音识别足够准确,能够让语音识别在需要精心控制的环境之外中使用。
吴恩达早就预测,当语音识别的准确率从95%达到99%时,语音识别将成为人与计算机交互的主要方式。4%的准确性差距就相当于「难以容忍的不可靠」到「令人难以置信的有用性」之间的差异。由于有深度学习,我们正在走向顶峰。
让我们学习怎样利用深度学习进行语音识别!
机器学习并不总是黑箱
如果你知道神经网络机器翻译怎样工作,你可能会猜到:我们可以简单地将声音录音输入神经网络,然后训练神经网络来生成文本:
这是用深度学习进行语音识别的核心,但我们还没有完全做到(至少在我写这篇文章的时候没做到——我打赌,在未来的几年我们可以做到)。
最大的问题是语音会随着速度变化。一个人可能很快地说出「Hllo!」,而另外一个人可能会很缓慢说「hlllllllllllllooooo!」。这就产生了一个更长的声音文件和更多的数据。这两个声音文件本应该被识别为完全相同的文本「hllo!」而事实证明,把各种长度的音频文件自动对齐到一个固定长度的文本是很难的一件事情。
为了解决这个问题,我们必须使用一些特殊的技巧和一些除了深度神经网络以外的额外处理。让我们看看它是如何工作的吧!
将声音转换成「字节」
语音识别的第一步是很显而易见的——我们需要将声波输入到计算机。
在第3章中(
转载请注明:http://www.0431gb208.com/sjsbszl/217.html