在语音识别系统的现实使用环境中,噪声、干扰和混响几乎是无处不在的。在麦克采集到的音频信号中,这些不利因素和目标语音信号叠加在一起,会带来识别率的下降,而在远场环境中更是如此。如图3-1所示,远场环境中可能同时存在反射声、扬声器回声、干扰用户的声音、方向性噪声和弥散噪声等,这对语音识别系统的准确性提出了很大的挑战。语音前端算法是一组对语音数据进行预处理的算法,其目标是从数据中去除这些不利因素,并尽可能恢复原始的纯净语音,从而提升识别率。
传统的语音前端算法主要是VAD、降噪和AEC。图3-2是一个简单的单通道语音前端处理框架的示意图(根据实际系统的功能和场景,使用的模块和处理顺序可能有所不同)。其中,VAD的一个作用是检测带噪声的音频数据中是否有语音。尽管很简单,但是VAD算法在语音交互系统中有着非常重要的作用。在带有语音唤醒功能的Always-On系统中,如智能手机上的语音助手,VAD通常被作为一级算法。该算法一般会一直在后台运行,并在检测到语音时,激活后面级别的语音唤醒或声纹识别算法。由于移动设备对功耗有要求,因此在此场景下通常对VAD算法的复杂度有较大限制。VAD算法的另外一个作用是在处理整段长语音的语音识别时,可对整段数据进行检测并找出其中每一句话的起始点和终止点,并以此为依据对数据进行分割。此外,VAD算法还是很多其他语音前端算法的基础。例如,在降噪或AEC算法中,可根据VAD的结果来使用不同的处理策略。AEC算法的作用是消除本地麦克风采集到的从扬声器中播放出来的远端音频信号。一个典型的例子是,在智能音箱中,有些场景需要在播放音乐或语音的同时识别用户指令。由于此时麦克风采集到的声音是目标语音和扬声器声音(这里被称为回声)的混合,因此需要AEC模块来消除回声并恢复纯净的目标语音。为了达到较好的消除效果,AEC模块需要将扬声器播放的音频信号(也被称为回采信号或远端参考信号)作为输入。降噪又被称为语音增强,主要作用是从语音信号中去除噪声,并尽可能恢复原始的纯净语音。实际环境中的噪声可以分为平稳噪声和非平稳噪声两类。平稳噪声是指统计特性比较稳定或随着时间变化只有缓慢变化的噪声,如风扇声、汽车发动机噪声等;而非平稳噪声是指统计特性快速变化的噪声,现实环境中各种突发的噪声大多属于此类。由于非平稳噪声对语音识别的性能有较大影响,因此对非平稳噪声的消除效果是评价一个降噪算法最关键的部分。近几年,随着算法和硬件的不断发展,智能音箱和车载智能语音交互系统已经越来越普及,人们对远场语音交互的需求也越来越大。在远场语音交互场景中,随着用户与设备之间距离的增加,噪声、干扰和混响等因素对语音质量的影响也被放大,并带来语音识别率的下降。传统的单通道语音前端系统在远场应用中并不能很好地处理远场语音识别的问题。这是因为单通道音频没有空间指向性,在远场环境中无法有效地在抑制干扰和噪声的同时保留目标信号。而麦克风阵列通过规则排列的麦克风来采集多通道数据,并通过波束形成算法和空间指向性,可以很好地对目标信号进行定向增强,这不仅能抑制弥散噪声,还能抑制方向性的噪声和干扰。麦克风阵列和相应的算法在远场语音交互的普及中发挥了重要作用。在当前商用的远场语音交互场景中,麦克风阵列的使用已经成为标配。图3-3是一个典型的使用麦克风阵列的多通道语音前端系统,其中除了AEC、VAD、降噪等模块,还包含波束形成、声源定位、去混响、增益控制等模块(在实际的应用与场景中,模块的组合方式可能会有所不同)。以上内容节选自《语音识别服务实战》一书,更多内容推荐阅读此书!关于本书作者
杨学锐
大疆创新语音交互算法负责人,复旦大学及Turku大学硕士,长期从事语音算法、深度学习、人工智能等领域的研究与商业落地,在相关领域发表多篇论文及专利。
晏超
北京邮电大学硕士,曾任职于HPLabs,Cisco,Technicolor等公司。现为云从科技语音算法负责人,从事语音识别、声纹识别、说话人日志、语音合成等方向的算法研发工作,构建了云从科技整套语音算法引擎与应用服务平台。
刘雪松
OPPO音频算法专家,复旦大学硕士,曾任职于美国国家仪器、声网、云从科技等公司。在信号处理、音频算法和语音算法等领域有丰富的实战经验,在相关领域发表多篇论文及专利。
编辑推荐
《语音识别服务实战》系统介绍语音交互流程中的语音前端处理、语音识别和说话人日志等算法原理,重点介绍如何基于WebRTC,Kaldi和gRPC,从零构建产业界稳定、高性能、可商用的语音服务,具有很强的实践性。点击下方小程序链接立即抽奖
可免费领取
《语音识别服务实战》
??
未中奖的小伙伴也可以点击下方链接直接购买:
扫码转载请注明:http://www.0431gb208.com/sjszlfa/176.html