得益于深度学习技术的推动,计算机视觉、自然语言处理和智能语音等技术的各项指标都得到了极大的提高,而且,一个共同的趋势是超大规模预训练模型的涌现,并不断刷新各个技术竞赛榜单。
年4月21日,语音之家公开课邀请到南开大学计算机学院教授、天津市媒体计算技术工程研究中心(TMCC)副主任—秦勇教授分享了《音频模式识别》。公开课简要介绍了音频模式识别这一热点方向,包括相关数据资源和应用场景。同时介绍国内外在相关领域研究的最前沿进展,最后重点介绍南开大学HLT实验室在音乐分类领域的探索和观点。
下面我们来一起回顾技术分享中的精彩细节。
秦勇
南开大学计算机学院教授
天津市媒体计算技术工程研究中心(TMCC)副主任
目前来说,特定任务的“窄”人工智能获得了巨大进步,“窄”意味着每一个技术相对来说是一个单一任务,单一模态,或者单一领域而言,相对是比较封闭的一个环境。随着深度学习的发展,机器翻译、语音识别、自然语言处理以及计算机视觉等都取得了非常大的进步。对语音而言,我们还是希望它能够向计算机视觉领域“ImageNetmoment”的方向努力。就语音识别来说,还是有很多挑战,如会议场景的多人说话、远场、噪声混响、口音方言等等。
音频模式识别之所以被
转载请注明:http://www.0431gb208.com/sjszlff/492.html