频年来,纯神经网络组成的端到端(End-to-End)语音鉴别系统吸引了学术界和产业界的留神力。端到端语音鉴别系统哄骗神经网络同时建模语音谈话,连结优化,防止语音谈话隔开建模的过错积聚,在很多公然数据集上曾经取患有比DNN-HMM混杂系统更好的功能。但是,与混杂模子声学模子和谈话模子隔开熬炼不同,端到端语音鉴别系统是哄骗语音-文本成对数据实行熬炼。恰是由于这一点,怎么哄骗纯文本数据来提高鉴别功能就成了比保守混杂模子更繁杂的一件事变。本文分享频年来学界对怎么哄骗文本学识提高端到端语音鉴别功能的法子。
语音鉴别是指将语讯息号变换为文字。保守上,语音鉴别系统通常由声学模子和谈话模子组成,声学模子为深度神经网络(DeepNeuralNetworks,DNNs)与隐马尔可夫模子(HiddenMarkovModels,HMMs)的混杂模子,谈话模子为N元语法谈话模子。这类系统通常称为DNN-HMM混杂系统。频年来,跟着深度进修技艺的进展,一种地道由神经网络组成的端到端语音鉴别系统徐徐鼓起。基于留神力机制的端到端[本文要紧转载请注明:http://www.0431gb208.com/sjsbszl/890.html