毕业论文
您现在的位置: 语言识别 >> 语言识别市场 >> 正文 >> 正文

一颗芯片解决所有语音交互,百度做了一项改

来源:语言识别 时间:2023/10/12
治疗皮肤白癜风 http://www.xftobacco.com/
雷锋网AI科技评论按:端到端一体化的技术,再次显出强大的功能。4月20日,百度旗下人工智能品牌小度发布了新款无屏智能音箱——小度智能音箱2红外版。据百度官方介绍,该音箱搭载了百度首款针对远场语音交互研发的鸿鹄芯片,性能上有三大提升:1)在语音识别上错误率平均降低30%;2)高噪声下首次唤醒率提升10%以上,且达到家居场合使用的超低误报要求;3)平均工作功耗仅mw左右,待机功耗下降90%。这样的性能提升在业界可谓首屈一指,值得探索。AI科技评论对其背后技术做了详细分析,认为这主要得益于在他们在语音交互方面提出的两大「端到端一体化」创新,1)在软件层面。目前智能音箱领域流行的语音交互方案为:先语音增强,后语音识别。这种过程把语音交互分割成了两个独立的过程,在优化过程中往往目标不一致。而百度直接采用了“基于复数卷积神经网络的语音增强和声学建模一体化端到端建模技术”(很长的一段话,关键词:复数卷积、端到端、增强和建模一体化),以字识别准确率作为唯一的优化目标。2)在硬件层面。传统上,智能音箱的语音唤醒一般是两级唤醒,这需要一颗低功耗唤醒芯片和一颗计算性能高的主芯片来配合完成。这种框架导致平均功耗极大(1W以上),且对主芯片的算力要求极高。百度提出了端到端软硬一体化框架,将所有语音交互任务都放到一颗低功耗语音交互芯片(鸿鹄)上,主芯片无需承载复杂的语音交互的计算功能,显著节省语音交互部分对整体系统资源的占用。这在软、硬两个层面革新,对整个(远场)语音交互都是颠覆性的。一、软件层面:语音增强和声学建模一体化端到端建模技术首先我们来分析一下,智能音箱的语音交互的软件层面为什么必须选择端到端建模的处理方式。传统上,为了提升远场语音识别的准确率,一般会使用麦克风阵列作为拾音器,利用多通道语音信号处理技术,增强目标信号,提升语音识别精度。目前,绝大多数在售的智能音箱产品系统所采用的多通道语音识别系统,都是由一个前端增强模块和一个后端语音识别声学建模模块串联而成的:年11月,百度语音引擎论前端增强模块通常包括到达方向估计(DOA)和波束生成(BF)。DOA技术主要用于估计目标声源的方向,BF技术则利用目标声源的方位信息,增强目标信号,抑制干扰信号。图片来源于网络后端语音识别声学建模模块,会对这一路增强后的语音信号进行深度学习建模。但,1)波束区域拾音方法有局限性。上面这一类语音增强技术大都是采用基于MSE的优化准则,从听觉感知上使得波束内语音更加清晰,波束外的背景噪音更小。但是听觉感知和识别率并不完全一致。而且这种方法在噪音内容也是语音内容的时候(例如电视和人在同一个方向时),性能会急剧下降。2)增强和识别模块优化目标不一致。前端语音增强模块的优化过程独立于后端识别模块。该优化目标与后端识别系统的最终目标不一致。目标的不统一很可能导致前端增强模块的优化结果在最终目标上并非最优。3)真实产品环境复杂,传统方法会影响使用体验。基于波束区域拾音的方法严重依赖于声源定位的准确性,但对于首次唤醒,由于还不知道声源的位置,所以首次唤醒率往往很低。对这些问题最好的解决,就是将语音增强和语音识别的建模进行端到端一体化,设计一套深度学习模型,输入是多路麦克信号,输出是目标语言的文字,模型的优化目标只有一个,即字准确率。图片来源于年11月,百度语音引擎论坛年谷歌团队曾最早提出采用神经网络来解决前端语音增强和语音声学建模的一体化建模问题。但谷歌提出的FCLP结构(FactoredComplexLinearProjection)仍然是以信号处理方法为出发点,用一个深度学习网络去模拟和逼近信号波束,因此也会受限于信号处理方法的一些先验假设。相对于传统基于数字信号处理的麦克阵列算法,谷歌得到了16%的相对错误率降低。百度采用了类似的思想,即做“语音增强和语音声学建模一体化”的端到端建模,不过他们所采用的是“基于复数的卷积神经网络”。图片来源于年11月,百度语音引擎论坛相比于谷歌的方法,该方法彻底抛弃了数字信号处理学科的先验知识,模型结构设计和数字信号处理学科完全脱钩,充分发挥了CNN网络的多层结构和多通道特征提提取的优势。在保留原始特征相位信息的前提下,这个模型同时实现了前端声源定位、波束形成和增强特征提取。该模型底部CNN抽象出来的特征,直接送入端到端的流式多级的截断注意力模型(SMLTA)中,从而实现了从原始多路麦克信号到识别目标文字的端到端一体化建模。整个网络的优化准则完全依赖于语音识别网络的优化准则来做,即完全以识别率提升为目标来做模型参数调优。贾磊曾在去年11月「百度大脑·语音能力引擎论坛」上向雷锋网(

转载请注明:http://www.0431gb208.com/sjszlff/5986.html

  • 上一篇文章:
  • 下一篇文章: 没有了