年,第一个语音识别系统问世了。被称为奥黛丽(Audrey,即AutomaticDigitRecognition,自动数字识别)的语音系统能够识别语言中最基本的声音单位——音素。
奥黛丽能听出数字0到9的声音。它对系统发明者HKDavis的声音识别率达到90%,而对其他人来说,识别率也达到了70%到80%左右。
奥黛丽是一个人工智能领域的重大成就,特别是在当时的有限计算能力和可用内存背景下。但该项目也突出了语音识别面临的主要挑战。当我们正常说话时,我们的句子可能很复杂,而且有些混乱。另外,我们语速通常很快——平均每分钟个单词。但语音识别系统对此的改进速度极其缓慢。
直到20世纪80年代,这项技术才有了重大进展。关键的突破是基于复杂统计的隐马尔可夫模型(HMM,HiddenMarkovmodel)的使用。例如,如果你说“dog”这个词,系统会分析d、o和g这三个单独的音,HMM算法会给每个音打分。并且,随着时间的推移,这个系统会更好地理解这些声音,并把它们翻译成文字。对语音识别来说,虽然隐马尔可夫模型很关键,但它仍然不能有效地处理连续语音。例如,语音系统是基于模板匹配的。系统通过采样将声波转换成数字,同时测量间隔的频率并存储结果。前提是声音输入必须非常清晰和缓慢,而且背景噪音也必须很小。但到了20世纪90年代,软件开发人员取得了长足的进步,并推出了一些商业系统。它可以理解连续语音中的数千个单词。然而,语音识别在当时仍然没有成为主流应用。(笔者在年初也买过当时的一款主流识别软件,但没用几天就束之高阁了,实在是太慢、错误又多。修改的功夫,早就自己敲完了。)许多人仍然觉得在电脑上打字和使用鼠标更方便。然而,在一些特殊行业,如医学领域,语音识别的使用率很高。
随着机器学习和深度学习的出现,语音系统迅速变得更加成熟和准确。这些语音识别关键算法利用了长短期记忆(LSTM)、递归神经网络和深度前馈神经网络。
感谢您的阅读,我每周都会发布几次关于机器学习、人工智能、编程和所有与计算机科学相关的内容。
往期内容:
机器识文断字的秘密:人工智能如何理解语言
自然语言处理面临的主要挑战
RPA令人期待?让我们看看如何在工作中高效实现机器人流程自动化
尺有所短;寸有所长:了解机器人流程自动化的优缺点
转载请注明:http://www.0431gb208.com/sjsbszl/2140.html